著者(漢字) アンドラーデ シルファ ダニエル ゲオルグ
著者(カナ) アンドラーデ シルファ ダニエル ゲオルグ
標題(和) ベイズ統計によるComparable Corporaからの対訳ペアの獲得
標題(洋) Bayesian Statistical Methods for Extending Bilingual Lexicon Using Comparable Corpora
報告番号 127562
報告番号 甲27562
学位授与日 2011.09.27
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第347号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 相澤,彰子
 東京大学 教授 今井,浩
 東京大学 教授 中川,裕志
 東京工業大学 教授 徳永,健伸
 東北大学 教授 乾,健太郎
内容要旨 要旨を表示する

Bilingual dictionaries can be automatically extended by new translations using comparable corpora.The general idea is based on the assumption that similar words have similar contexts across languages. This thesis suggest a new method which is distinguished from previous work, by mainly two aspects: First, it captures the relevant context using a novel Bayesian estimation of the Point-wise Mutual Information. Second, the context is defined not only by a bag-of-words, but additionally enriched by dependency tree information, which is mapped across unrelated languages. We provide an in depth analysis of the performance of our method and compare it to several previous baseline methods. Furthermore this thesis also shows how the importance of different dependency tree information can be learned in a Bayesian framework.

Comparable corpora are two corpora written in different languages,covering similar topics. Comparable corpora are not necessarily parallel, and therefore, can be easily created for various domains.On the other hand, although general dictionaries are often abundantly available, domain-specific dictionaries are rare, and expensive to be manually created.We use comparable corpora to find a translation of a certain word (query word), in the following way: In the first step, from the context of the query word, we extract salient pivot words. Pivot words are words for which a translation is already available in the bilingual dictionary. In the second step, we match these pivots across languages to identify translation candidates for the query word.For extracting relevant pivot words we use a Bayesian estimation of the Point-wise Mutual Information. We then calculate a similarity score between the query word and a translation candidate, by using the probability that the same pivots are extracted for both the query word and the translation candidate. We extract pivot words in several context positions, namely, bag-of-words of one sentence, and the successors, predecessor and siblings with respect to the dependency parse tree. In order to make these context positions comparable across the unrelated languages Japanese and English, we use several heuristics to adjust the dependency trees appropriately. We demonstrate that our proposed method can significantly increase the accuracy of word translations when compared to previous baseline methods.

In the final part of our thesis we introduce a supervised method which appropriately weights each context position. This method is based on a generalization of the cosine similarity: it performs a linear transformation of the context vectors using a specified matrix, before calculating the cosine similarity between them. The optimal matrix is expressed in a Bayesian probabilistic model and learned using Markov-Chain Monte Carlo methods.

本研究では、Comparable Corpora を用いて対訳辞書を自動的に拡張する。

この対訳の自動獲得における基本的な仮説は、対訳関係にある2つの単語は同様の文脈に現れる、ということである。我々の提案手法は従来法に対し次のような点で優れている:第一に、重要な文脈をベイズ法に基づく新しい手法によって PMI (Point-wise Mutual Information)を推定することによって検出される。第二に、単語が現れる文脈を、単純なBag-of-wordsモデルに加え、係り受け構造の情報も用いることで豊かに表現する。我々はさらに、係り受け構造から得られる異なった種類の情報を、ベイズ推定に基づいて適切に重みづけする手法を提案する。

Comparable Corpora とは、二つの異なる言語で書かれた、同様の内容を持つコーパス対である。対訳コーパスと異なり、Comparable Corpora 内の各文は必ずしも対訳関係にある必要は無いため、どの分野に対しても比較的簡単に Comparable Corpora が作成できる。一方、一般的な語彙に対する対訳辞書は数多く存在するが、専門的な用語に対する対訳辞書は少なく、人手による開発は高いコストを必要とする。本論文では、原言語と目標言語の Comparable Corpora を用いて、与えられた原言語の単語(対象単語)に対し適切な翻訳を以下のように検索する:まず、原言語のコーパスにおいて、対象単語が出現する文脈から、対象単語との相関値が有意なピボット語をを抽出する。ここで、ピボット語とは、既存の対訳辞書中に存在する内容語である。 ビポット語と対象単語の相関関係が有意かどうかは、ベイズ法を用いて PMI を推定することによって決める。







審査要旨 要旨を表示する

本論文は、「Bayesian Statistical Methods for Extending Bilingual Lexicon Using Comparable Corpora(ベイズ統計によるComparable Corpora からの対訳ペアの獲得)」と題し、二言語間で対訳関係にある言語対を自動的に獲得する方法について論じている。

第1章では、専門的な用語に対する対訳辞書の必要性を述べ、話題は共通だが厳密な対訳関係にはない二言語コーパス(comparable corpora)から対訳辞書を自動的に拡張することを、研究の目標として設定している。このような二言語コーパスは、分野に依らず比較的簡単に入手できることから、対訳辞書の自動獲得手法が確立すれば、人手による辞書開発のコストが高いという従来の問題点を克服することができる。

第2章では、comparable corporaからの対訳関係の自動獲得についての従来研究を概観するとともに、単一言語コーパスからの同義語辞書の自動獲得などの関連分野に言及している。また、研究で用いるコーパスや評価法、比較手法などを説明し、論文中で扱う問題の定義を明確にしている。

第3章では、係り受け関係を含む文脈中での出現位置を手がかりとした、ピボット語の統計的抽出法の提案および評価を行っている。ここでピボット語とは、既存の対訳辞書中に存在する名詞などの内容語であり、文脈ごとして専門用語どうしの適切な対訳関係を発見するために用いられる。提案手法の第一のポイントは、語の共起の度合いを示す自己相互情報量(Point-wise Mutual Information、PWI)をベイズ法に基づく新しい手法によって推定し、重要な文脈語をより正確に発見する点である。第二のポイントは、それぞれの言語における単語どうしの係り受け関係の情報を言語間で対応づけることで、単語が現れる文脈をより的確に把握する点である。論文中では、様々な観点からの実験を通して提案手法の性能を分析し、既存手法に対する優位性を示している。

第4章では、係り受け関係に基づく異なる種類の文脈情報に対して、適切な重みづけを学習することで、対訳ペア獲得の精度を向上させる手法を提案している。この手法は、それぞれの言語に対する複数の文脈ベクトルを線形変換した後で、二言語間でコサイン類似度を計算するものであり、従来手法におけるコサイン類似度の一般化になっている。提案手法では、ベイズ的な確率モデルによって線形変換の適切さを表現し、マルコフ連鎖モンテカルロ法を用いて変換行列の各パラメータを学習する。実験を通して、提案手法の適用により対訳獲得の精度が有意に向上し、最終的には、日本語-英語の言語対に対して既存の対訳獲得手法より最大10 ポイントの精度向上が得られることを示している。さらに、実験結果に対する考察から、日本語と英語の係り受け関係を対訳獲得に用いる際の、係り受け関係の重みづけについての知見を報告している。


以上を要するに、本論文では、comparable corporaからの対訳関係の自動獲得について、ベイズ法に基づく確率推定を用いた主要な文脈語の抽出、係り受け関係に基づく一般化したコサイン尺度の導入と学習による重み調整という、2つのアプローチを示している。提案手法の枠組みは言語に依存せず、一般語の対訳辞書および各言語の構文解析器が存在すれば広く適用可能である。日本語-英語の組み合わせは、対訳獲得の対象言語対として難しい組み合わせの1つとされているが、提案手法はこの組合せに対して有効性を示していることから、その枠組みは他のさまざまな言語対に対しても有効であると考えられる。これらの研究成果は、comparable corpora を用いた対訳獲得に関する今後の研究において重要な基礎となるものである。


