学位論文要旨



No 120533
著者(漢字) 荒牧,英治
著者(英字)
著者(カナ) アラマキ,エイジ
標題(和) 用例ベース翻訳の定式化と実現
標題(洋) Formalization and Realization of Example-based Machine Translation
報告番号 120533
報告番号 甲20533
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第46号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 助教授 黒橋,禎夫
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 近山,隆
 東京大学 教授 西田,豊明
 東京大学 教授 辻井,潤一
内容要旨 要旨を表示する

機械翻訳は,自然言語処理の最大の応用分野であるとともにキラーアプリケーションであり,その研究は50年も前から開始され,現在に至るまで続けられてきた.

当初はルールベースの翻訳システムが研究されていた.しかし,ルールを人手で作成するのには,大きなコストと時間がかかる上,ルールの数が増すとともにルールを管理するのが困難となる.

近年では,インターネットの発展とともに電子化テキストの量が増加しつづけ,それら大量のコーパスを用いたコーパスベース翻訳に注目が集まっている.コーパスベース翻訳は統計ベース翻訳[Nagao1984]と用例ベース翻訳[Brown1993]の2つのアプローチがある.

統計ベース翻訳は,単語にばらして翻訳モデルを学習する.この方式は,英語=フランス語など類似した言語間ではうまく働くが,日英のように大きな構造変換が行われる言語間の翻訳をとらえるのが困難である.

本論文は用例ベース翻訳に焦点をあてる.用例ベース翻訳は,入力文の各部分に対して類似した用例を選択し,それらを組み合わせて翻訳を行う.経験豊かな人間が翻訳を行う場合でも用例を利用して翻訳を行っており,この方式は他の手法よりも自然な翻訳文の生成が可能だと考えられる.また,用例の追加により容易にシステムを改善可能である.

以上のような利点を持つものの,一般的な用例ベース翻訳システムは実現されていない.

その理由の一つとして,用例ベース翻訳は入力文や用例を解析するための高精度のパーサーを必要とするが,これまでは十分な精度を持つパーサーが存在しなかったことが挙げられる.しかし,近年,パーサーの精度は急速に向上し,日本語や英語などではすでに90%以上の精度を持つ.すなわち,最近になってはじめて,実証的な研究が行えるベースが整ったと言える.

本稿は実証的な用例ベース翻訳を実現するために(1)頑健なアライメント,(2)訳語選択に関して提案する.さらに,従来まで経験則に頼っていた用例ベース翻訳を定式化する

二章ではアライメントについて述べる.言語間の対応関係を推定する処理であるアライメントは機械翻訳のキーテクノロジーである.特に,アライメント結果を直接用いる用例ベース翻訳にとって,アライメントは翻訳精度に大きな影響を及ぼす重要な処理である.提案手法は,頑健なアライメントのために,パーサーで解析された構造情報を利用し,翻訳辞書など既存の言語資源をフルに用いる.翻訳辞書を用いたアライメントでは,(a)辞書対応の曖昧性,(b)辞書に載っていない語の扱いが問題となる.

この問題を解決するために,(a)に対しては,対応の整合性を用いる対応内の整合性,対応同士(対応間)の整合性を提案する.(b)に対しては,構造の情報を利用する.

三章では用例の選択を中心に翻訳システム全体について述べる.アライメント結果にはしばしばエラーが含まれる.このため,大量の用例の中から適切なものを選ぶ技術が必要となる.

提案手法は,従来から用いられている用例の大きさ,類似度に加え日英対応の確信度を用いこの問題を解決する.

四章では,用例ベース翻訳を定式化を行う.大きな用例ほど大きなコンテストを扱えるため,用例ベース翻訳は基本的に大きな用例を用いて翻訳を行う.すなわち,用例ベース翻訳は大きさを重視,統計ベース翻訳は頻度を重視するアプローチだと言える.しかし,統計ベース翻訳とちがい用例ベース翻訳は定式化されておらず,統計ベース翻訳と比べてアドホックである.

提案手法は,大きな用例を好む翻訳確率を提案し,それを用いて用例ベース翻訳を定式化する.

五章では,提案した翻訳システムの評価を行う.評価は複数の自動評価手法と人手による主観評価の両方からなり,提案した翻訳システムおよびその手法の妥当性を証明する.

六章では結論を述べ,今度の機械翻訳研究の方向性を議論する.

審査要旨 要旨を表示する

 本論文は、「Formalization and Realization of Example-based Machine Translation」(用例ベース翻訳の定式化と実現)と題し、実用レベルの用例ベース機械翻訳を実現するために、用例データベースの頑健な構築手法、および、用例の大きさ、文脈類似度、確信度などを総合的に考慮する訳語選択手法を提案し、さらに、従来経験則に頼っていた用例ベース翻訳の確率論的な定式化を行い、実験的評価によりその有効性を論じたものであり、6章から構成されている。

 第1章は「Introduction」(緒言)であり、機械翻訳の歴史について概観し、近年、大規模対訳コーパスに基づく用例ベース、統計ベースの手法が実現可能になってきたこと、これらの手法の妥当性および差異について論じ、本論文で取り扱う問題を明確化している。

 第2章は「Robust Dictionary-based Phrase Alignment」(辞書に基づく頑健な句対応付け)と題し、対訳文間の句レベルの対応付けを頑健に行う手法について論じている。この句対応付けの結果が用例データベースとなり、用例ベース翻訳の直接の知識源となることから、これを高精度に行うことが用例ベース翻訳にとってのキーテクノロジーとなる。この処理を頑健に実現するために、構文解析によって得られる構文情報と、翻訳辞書によって与えられる情報を最大限に利用する。ここで問題となるのは、辞書によって得られる単語・句対応の曖昧性と、辞書にのっていない未知語の扱いである。この問題を解決するために、前者については句対応内部の整合性と句対応相互の整合性を用いる曖昧性解消手法を提案し、後者については構文情報を利用した句対応の推定手法を提案した。

 第3章は「Basic EBMT System」(基本用例ベース翻訳システム)と題し、用例ベース翻訳システムの全体の構成を示し、特に用例、すなわち訳語選択を高精度に行う方法について論じている。句対応付けの結果は誤りを含むものであるため、大量の用例の中から適切なものを選ぶ必要がある。ここでは、従来から用いられている用例の大きさ、文脈の類似度に加え、用例の句対応の確信度を尺度に加えることで、用例選択の精度が向上することを示した。

 第4章は「EBMT based on Translation Probability」(翻訳確率に基づく用例ベース翻訳)と題し、用例ベース翻訳の定式化を行っている。用例ベース翻訳では、基本的にできるだけ大きな用例を用いて翻訳を行うことで、大きな文脈に支えられる高精度の翻訳を実現しようとしている。しかし、従来の用例ベース翻訳は経験則に基づく指標によって用例を選択しており、現在、一方で盛んに研究が行われている統計ベース翻訳に比べてアドホックで不透明であるとの批判を受けてきた。そこで、用例ベース翻訳の中に確率の尺度を持ち込み、大きな用例を用いることでその翻訳が安定する、すなわち翻訳確率が大きくなる、という考え方に基づく用例選択の定式化を提案した。また、この定式化に基づくシステムを実際に構築し、その有効性を議論した。

 第5章は「Experiments」(実験)と題し、第3章の基本翻訳システムと第4章の確率ベースの翻訳システムについて、2万文からなる旅行対話対訳コーパスを用いた大規模な評価実験について報告している。評価にあたっては、複数の自動評価手法と人手による主観評価の両面からの評価を行い、多角的な議論を展開している。また、第3章のシステムについては、機械翻訳の評価型国際ワークショップにおいて上位の成績を収めたことを報告し、これらのシステムが実用的な翻訳精度に達していることを示した。

 第6章「Conclusion」(結論)では、本論文の主たる成果をまとめるとともに、今後の課題と展開について述べている。

 以上を要するに、本論文は、用例ベース機械翻訳において実用的なシステムを実現するために特に重要となる用例データベース構築法、および高精度な用例選択法においていくつかの新しい知見を示すとともに、用例ベース翻訳の確率論的な定式化を提案し、大規模対訳コーパスを用いてそれらの有効性の確認を行ったものであり、電子情報学上貢献するところが少なくない。

 よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク