内容要旨

The bilingual lexicon is an expensive but crucial resource for multilingual applications in natural language processing. This thesis proposes an enrichment of the bilingual lexicons used for machine translation in two aspects: the identification of synonyms and a pivotal approach for acquiring lexical translation.

Construction of synonym lists is one of the important natural language processing (NLP) tasks, because the obtained synonym lists can be used by several different NLP applications such as machine translation (MT) and information retrieval (IR). In the first part of this thesis, a machine learning method for identifying synonyms in a bilingual lexicon is presented. Initially we prepare a bilingual lexicon with synonymous information and generate the pairs of translation equivalents, and attach the presence or absence of synonymous relations to each pair. Then, a classifier is learned using training data by employing features related to spelling variations and so forth. The principal contributions of this work are defining the synonymous relations in a bilingual lexicon, proposing features and algorithms for identifying the synonyms, and verifying the effectiveness of the method for a bilingual lexicon with synonymous information. The experimental results show that our proposed method has an F-score of 91.6% on a pairwise evaluation and significantly outperforms the performances of the baselines and the approach using combinations of monolingual synonyms.

In the second part of this thesis, an integrated framework for building a bilingual lexicon between Chinese and Japanese languages through English as the pivot language is proposed. Since the language pair of Chinese-Japanese does not include English, bilingual resources between these languages are smaller than those with English. One solution to this problem is to build a Chinese-Japanese bilingual lexicon through English as the pivot language. In addition to the pivotal approach, we can make use of the characteristic that Chinese and Japanese languages use Han characters. We incorporate a translation model obtained from a small Chinese-Japanese lexicon and the similarity of hanzi and kanji characters by using the log-linear model. Our experimental results show that the use of the pivotal approach can improve the translation performance over the translation model built from the small Chinese-Japanese lexicon. The results also demonstrate that the similarity of hanzi and kanji characters has a positive effect on the translation of technical terms.

審査要旨

本論文は、「PIVOTAL APPROACH FOR LEXICAL TRANSLATION(中間言語を用いた辞書の翻訳)」と題し、5章より構成される。


第1章は、「Introduction(序章)」である。対象領域の対訳コーパス(parallel corpora)に基づき翻訳知識を獲得するデータ駆動型の機械翻訳の有効性を指摘するとともに、任意の2言語間で必ずしも十分な量の対訳コーパスが利用できるとは限らないことを問題点としてあげている。このような場合に、対訳関係が対応づけられていない2言語コーパス(comparable corpora)から分野固有の翻訳知識を獲得することが課題となる。これを受けて、特に日本語と中国語について、専門用語の翻訳モデルを獲得する手法を確立することを本論文の目標として設定している。続いて、統計的機械翻訳モデルを専門用語の翻訳に適用する際の課題を明らかにし、中間言語による機械翻訳アプローチ、2言語コーパスとしての電子化対訳辞書の利用、同義語と対訳語の選択など、本論文の中心となる考え方を解説して、本論文の構成を記している。


第3章は、「A Chinese-Japanese Lexical Machine Translation through a Pivot Language(中間言語を用いた句に基づく中日機械翻訳)」と題し、英語を中間言語として中国語の専門用語を日本語に翻訳する手法について論じている。英日、中日それぞれの専門用語翻訳モデルから日中の専門用語翻訳モデルを生成し、さらに、中国語の漢字(Hanzi)と日本語の漢字の対応づけに基づいて計算した翻訳確率を、特徴素として組み込む手法を提案している。評価では、数十万語規模の対訳辞書資源をコーパスとして用いて、BLUEスコアにより性能を比較し有効性を示すとともに、中間言語や日中漢字対応表の効果について詳細な分析を行っている。

第4章は、「Identifying Synonymous Translation Equivalents in a Bilingual Lexicon(対訳辞書中の同義対訳表現の同定)」と題し、対訳辞書中の対訳用語ペアに基づく同義語と表記ゆれの抽出について論じている。具体的には、まず、対訳用語辞書から2言語間の対訳関係および単一言語内での同義語関係を抽出した後に、単語Nグラム類似度などの単語レベルの特徴素、文字バイグラムや正規化編集距離などの文字レベルの特徴素、さらに文脈類似度や共通対訳語の存在など多様な手掛かりを利用して、意味的な同一性を精度高く判定する分類器を構成している。また、大規模な日英用語辞書を用いた評価により、提案手法が再現率およびF値において従来手法を大幅に改善することを示している。




