学位論文要旨



No 125480
著者(漢字) 綱川,隆司
著者(英字)
著者(カナ) ツナカワ,タカシ
標題(和) 中間言語を用いた辞書の翻訳
標題(洋) PIVOTAL APPROACH FOR LEXICAL TRANSLATION
報告番号 125480
報告番号 甲25480
学位授与日 2010.03.12
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第260号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 相澤,彰子
 東京大学 教授 中川,裕志
 東京大学 准教授 須田,礼仁
 静岡大学 教授 梶,博行
 筑波大学 准教授 宇津呂,武仁
内容要旨 要旨を表示する

The bilingual lexicon is an expensive but crucial resource for multilingual applications in natural language processing. This thesis proposes an enrichment of the bilingual lexicons used for machine translation in two aspects: the identification of synonyms and a pivotal approach for acquiring lexical translation.

Construction of synonym lists is one of the important natural language processing (NLP) tasks, because the obtained synonym lists can be used by several different NLP applications such as machine translation (MT) and information retrieval (IR). In the first part of this thesis, a machine learning method for identifying synonyms in a bilingual lexicon is presented. Initially we prepare a bilingual lexicon with synonymous information and generate the pairs of translation equivalents, and attach the presence or absence of synonymous relations to each pair. Then, a classifier is learned using training data by employing features related to spelling variations and so forth. The principal contributions of this work are defining the synonymous relations in a bilingual lexicon, proposing features and algorithms for identifying the synonyms, and verifying the effectiveness of the method for a bilingual lexicon with synonymous information. The experimental results show that our proposed method has an F-score of 91.6% on a pairwise evaluation and significantly outperforms the performances of the baselines and the approach using combinations of monolingual synonyms.

In the second part of this thesis, an integrated framework for building a bilingual lexicon between Chinese and Japanese languages through English as the pivot language is proposed. Since the language pair of Chinese-Japanese does not include English, bilingual resources between these languages are smaller than those with English. One solution to this problem is to build a Chinese-Japanese bilingual lexicon through English as the pivot language. In addition to the pivotal approach, we can make use of the characteristic that Chinese and Japanese languages use Han characters. We incorporate a translation model obtained from a small Chinese-Japanese lexicon and the similarity of hanzi and kanji characters by using the log-linear model. Our experimental results show that the use of the pivotal approach can improve the translation performance over the translation model built from the small Chinese-Japanese lexicon. The results also demonstrate that the similarity of hanzi and kanji characters has a positive effect on the translation of technical terms.

審査要旨 要旨を表示する

本論文は、「PIVOTAL APPROACH FOR LEXICAL TRANSLATION(中間言語を用いた辞書の翻訳)」と題し、5章より構成される。

言語横断的な自然言語処理において、対訳辞書は構築に手間がかかるが必須の言語資源である。本論文では機械翻訳のための対訳辞書の拡充を目的として、同義語の抽出および中間言語を用いた対訳の獲得について論じている。

第1章は、「Introduction(序章)」である。対象領域の対訳コーパス(parallel corpora)に基づき翻訳知識を獲得するデータ駆動型の機械翻訳の有効性を指摘するとともに、任意の2言語間で必ずしも十分な量の対訳コーパスが利用できるとは限らないことを問題点としてあげている。このような場合に、対訳関係が対応づけられていない2言語コーパス(comparable corpora)から分野固有の翻訳知識を獲得することが課題となる。これを受けて、特に日本語と中国語について、専門用語の翻訳モデルを獲得する手法を確立することを本論文の目標として設定している。続いて、統計的機械翻訳モデルを専門用語の翻訳に適用する際の課題を明らかにし、中間言語による機械翻訳アプローチ、2言語コーパスとしての電子化対訳辞書の利用、同義語と対訳語の選択など、本論文の中心となる考え方を解説して、本論文の構成を記している。

第2章は、「Background(背景)」と題し、機械翻訳の歴史と現状を概観するとともに、統計的機械翻訳の基礎を解説して、単語ではなく句を単位とする統計的機械翻訳手法について触れている。続いて、機械翻訳の評価手法について総説し、さらに、同義語抽出に関する過去の研究例についても記している。

第3章は、「A Chinese-Japanese Lexical Machine Translation through a Pivot Language(中間言語を用いた句に基づく中日機械翻訳)」と題し、英語を中間言語として中国語の専門用語を日本語に翻訳する手法について論じている。英日、中日それぞれの専門用語翻訳モデルから日中の専門用語翻訳モデルを生成し、さらに、中国語の漢字(Hanzi)と日本語の漢字の対応づけに基づいて計算した翻訳確率を、特徴素として組み込む手法を提案している。評価では、数十万語規模の対訳辞書資源をコーパスとして用いて、BLUEスコアにより性能を比較し有効性を示すとともに、中間言語や日中漢字対応表の効果について詳細な分析を行っている。

第4章は、「Identifying Synonymous Translation Equivalents in a Bilingual Lexicon(対訳辞書中の同義対訳表現の同定)」と題し、対訳辞書中の対訳用語ペアに基づく同義語と表記ゆれの抽出について論じている。具体的には、まず、対訳用語辞書から2言語間の対訳関係および単一言語内での同義語関係を抽出した後に、単語Nグラム類似度などの単語レベルの特徴素、文字バイグラムや正規化編集距離などの文字レベルの特徴素、さらに文脈類似度や共通対訳語の存在など多様な手掛かりを利用して、意味的な同一性を精度高く判定する分類器を構成している。また、大規模な日英用語辞書を用いた評価により、提案手法が再現率およびF値において従来手法を大幅に改善することを示している。

第5章は、「Conclusion(結論)」であり、本論文の成果をまとめるとともに、課題や今後の展開の方向性について論じている。

以上を要するに、本論文では、機械翻訳システムのための対訳辞書の拡張手法を検討し、中間言語を介した専門用語対訳モデルの獲得および対訳用語辞書に基づく同義語獲得という2つの方向性を提示している。現実的なデータを用いた評価においても、提案手法は従来手法に対する優位性を示しており、日本語と中国語など対訳例文コーパスが必ずしも十分ではない言語間での機械翻訳システムの実現に貢献することが期待される。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク