学位論文要旨



No 112646
著者(漢字) 田中,久美子
著者(英字)
著者(カナ) タナカ,クミコ
標題(和) 自然言語の表層処理に基づく多義性解消に関する研究
標題(洋)
報告番号 112646
報告番号 甲12646
学位授与日 1997.03.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3924号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 武市,正人
 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
 東京大学 教授 杉原,厚吉
 東京大学 助教授 堀,浩一
内容要旨

 二言語辞書の改訂、類似文書の検索、自動翻訳における訳語選択、シソーラスの改訂など、自然言語の意味に関わる自動処理の必要性が増している。多義性の解消とは、ある語や文に対応する語や文の候補が複数存在する時に、不適当な候補を除くことにより適当な候補だけに限定することである。上に挙げた問題はいずれも多義性の解消問題と見做すことができる。

 従来は、自然言語を言語に依存しない人工的な中間表現に一旦落とし、予め別に用意した知識を用いて多義性を解消してきた。しかし、自然言語では態、時制を始めとする多様な概念が表現されるため、従来の方法では中間表現の設計が難しいなどの問題点が生じる。したがって、自然言語の文法を限定したり、文脈を限定した上でしか多義性解消の処理が可能ではなかった。

 一方、近年は計算機の能力が向上し、大量の言語データを統計処理することが可能となった。それと共に、電子辞書から抽出される訳語関係、類語関係や、コーパスから抽出される共起関係(文中で隣接して現れる関係)を用いた意味処理が研究され始めている。題目中の「表層処理」とは、これらの語の関係の処理を指す。本論文の目的は、情報処理に適している大規模データ上の表層処理を用いて、多義性を解消する方法とその有効性を明らかにすることにある。

 以下に三つの主要な研究を列挙する。

主要研究1第三言語を介した対訳辞書の作成

 第三言語を介して二言語辞書を作成する手法を論じ、現存の辞書との比較により抽出結果を検討した。たとえば和英辞典と英仏辞典から英語(第三言語)を仲介として和仏辞典を作成する際には、英語において機械的に辞書を合体させるだけでは第三言語の語の多義性により不適当な訳語が生じる。したがって、正しい訳語のみを自動抽出する手法が必要となる。本研究では、語と訳語関係から形成されるグラフと、語の形態素がもつ表意とを利用した手法を提案し、実際に既存の中辞典規模の電子辞書の名詞、動詞、形容詞に対して実験を行った。実験結果を既存の仏和辞典と比較すると、結果には既存の辞書にはない訳語が得られており、辞書の改訂に役立てることが可能であることが明らかとなった。この研究では複数の電子辞書をもとに、訳語関係の多義性の解消法を論じている。

 第三言語を介して辞書を引くことは、国際性の低い言語や専門の分野を扱う場合は不可欠である。これを自動化することによって、より多くの言語間、より多様な分野での対訳辞書を自動作成することができるようになる。本研究の目的はその第一歩を目指すものである。

主要研究2非対訳コーパスを用いた訳語関係の抽出

 研究1では語とその訳語関係によって形成される辞書内のグラフ構造と形態素のみの表層処理を用いて多義性の解消を行ったが、これだけでは十分な精度が得られないという問題点が生じた。これを動機として、辞書以外のデータを用いて精度を向上させる目的で、日本語、英語の独立のコーパス(非対訳コーパス)を用いて和英間の訳語関係を抽出する手法を提案した。「第一言語で共起する二つの語の訳語は、第二言語でも共起する」という仮定に基づき、第一言語の共起情報を第二言語に翻訳することを行列計算として定式化した。その上で、第一言語の共起情報の翻訳と、第二言語の共起情報が類似する様に翻訳行列を最適化する。最適解は文脈に基づいて訳語関係の多義性が最も解消されている場合となる。この仮定に基づく行列最適化の処理の実体は、二つの言語それぞれでコーパスから得た語と共起関係によって得られるグラフ(共起グラフ)のパターンマッチに相当する。同手法は局所文脈に基づいた訳語の選択に有効であることを検証した。さらに第一、二言語で非対訳コーパスから大域的な訳語関係を抽出するために、翻訳行列を逐次的に最適化する方法を示し、有効性を検討する実験を行なった。

 自動翻訳研究の一つの傾向として、文とその翻訳文を大量に集めて統計処理することによって翻訳精度を上げる試みがなされている。そのためには文と翻訳文に文レベル、語レベルで自動的に対応をつけるアラインメントの研究が必要である。しかし、現在のアラインメントの精度は語レベルともなる高いとはいえず、雑音をどのように取り除くかが問題となっている。本研究の成果は、研究1の精度を向上させることに留まらず、アラインメントの処理の結果に対し、雑音を取り除くことにも役立てることができる。

 また、本研究の一つの特徴は、局所的な文脈に応じた語の多義性の解消と、コーパスからの大域的な訳語関係の抽出は結局のところ同一の問題であると主張している点にある。

主要研究3推移律に基づく共起グラフのクラスタ分け

 研究2を追求する際、巨大な共起グラフのパターンマッチは計算量、収束性の点で問題となり、グラフを分割してから上の手法を適用する必要性が生じた。共起グラフは、同じ語が複数の意味を持つことがあるため、全体でひとつの大きなグラフを形成している。そこで、この研究では多義性を「共起関係の推移律」という観点から捉え、共起グラフを推移律が成立するような同じ意味・話題を成す部分グラフにクラスタ分けするための手法を提案した。さらにクラスタ分けされたグラフの性質についても考察した。コーパスから作成した共起グラフに対して本手法を適用する実験を行い、さらに結果のクラスタを基に主成分分析を用いて新聞記事を分類し、その正当性を検討した。

 語の意味は他の語との関係を通して定まる。しかし、これらの関係を加工する処理においては、語の多義性が原因となって語の関係が入り乱れてしまい、正しい関係を見きわめるのが難しくなっている。本論文で扱った問題は、表面的には異なる問題に見えるが、入り乱れた語の関係を適切に仕分けする手法の追求という点で共通するものであった。その時に一貫して用いられたのは、関係が密な語群は多義性が解消されている語群であるという仮定に基づいた処理法である。本研究での実験では、課題を残しつつもこの仮説が適切であることを示すと同時に、同じ手法を別とされている三つの問題に適用することにより、これらの根本が同じ問題であることをも示している。

 最後に、付録として文章の多義性の解消問題を扱った実動ツールを簡単にまとめた。言語の多様性、変容性のため、自然言語処理では100%正しい結果を出力する処理を行うことができない。特に、計算機で処理することの難しい曖昧性や多義性の問題では、この傾向は強い。その中で、工学として着実に貢献できる方法の一つは、完璧な処理ではなくとも十分にユーザに使用されるシステムを考案し構築していくことであろう。さらに現在では、電子文書があふれているため、誰もが求める情報を含む文書を検索し、必要な情報だけを抜き出して加工する処理を行っている。したがって、利用価値の高い文書処理ツールに対する需要は高まっている。本付録では形態素解析器を基本として、文体測定や、キーワード抽出などといった有用性が高いと考えられるツールを手軽に利用できるようにweb上に提供したことを述べている。

審査要旨

 本論文は、「自然言語の表層処理に基づく多義性解消に関する研究」と題し、二言語辞書の改訂、類似文書の検索、自動翻訳における訳語選択、シソーラスの改訂など自然言語の意味処理に多義性の解消という視点から検討を加え、言語の表層的な処理によってこれを実現する方法を論じたもので、6章よりなる。ここで扱っている言語の多義性とは、ある語や文に対応する語や文の候補が複数存在することである。これらの候補のなかから不適当な候補を除くことにより、類似する候補だけに限定することが多義性の解消にあたる。本論文では、大量の言語データの統計処理を多義性解消に利用する手法を扱い、電子辞書から抽出される訳語関係、類語関係や、コーパスから抽出される共起関係を用いるという表層処理の有効性を明らかにしている。

 第1章「序論」では、自然言語の意味に関する考え方を概観し、多義性解消が本質的であるような問題をとりあげ、それらを表層的処理によって解決することが工学的なひとつの方向であるとの立場を述べ、本論文で論じる研究の目的を明確にしている。

 第2章「第三言語を介した対訳辞書の作成」では、第三言語を介して二言語辞書を作成する手法を論じ、実験結果と現存の辞書との比較により有効性を検討している。そこでは、和英辞典と英仏辞典から英語(第三言語)を仲介として和仏辞典を作成する際に、英語において機械的に辞書を合体させるだけでは第三言語の語の多義性により不適当な訳語が生じることを例示し、正しい訳語のみを自動抽出する手法の必要性を述べている。このような問題に対して、語と訳語関係から形成されるグラフと語の形態素がもつ表意とを利用した手法を提案し、実際に既存の中辞典規模の電子辞書の名詞、動詞、形容詞に対して行なった実験例を示している。実験結果を既存の仏和辞典と比較し、この辞書にはない訳語が得られていて、辞書の改訂に有用であることを例証している。第三言語を介して辞書を引くことは、国際性の低い言語や専門の分野を扱う場合は不可欠であるが、これを自動化することによって、より多くの言語間、より多様な分野での対訳辞書を自動作成することができるようになると主張している。

 第3章[非対訳コーパスを用いた訳語関係の抽出」では、日本語、英語の独立のコーパス(非対訳コーパス)を用いて和英間の訳語関係を抽出する手法を提案している。これは、語とその訳語関係による辞書内のグラフ構造と形態素を用いた第2章の多義性の解消法を補うもので、辞書以外のデータを用いて精度を向上させようとする表層処理のひとつである。「第一言語で共起する二つの語の訳語は、第二言語でも共起する」という仮定に基づき、第一言語から第二言語への翻訳を行列によって表現し、共起関係の翻訳を行列計算として定式化している。これは、第一言語の共起情報の翻訳と第二言語の共起情報が類似するように翻訳行列を変換することにより、文脈に基づく訳語関係の多義性解消を実現しようとするものであり、二言語でコーパスから得た語と共起関係によって得られるグラフ(共起グラフ)のパターンマッチングに相当している。本章では、この手法が局所文脈に基づいた訳語の選択に有効であることを検証するとともに、第一、二言語で非対訳コーパスから大域的な訳語関係を抽出するために、翻訳行列を逐次的に最適化する方法を示して、有効性を検討する実験を行なっている。

 第4章「推移律に基づく共起グラフのクラスタ分け」では、多義性を共起関係の推移律という観点から捉え、共起グラフを推移律が成立するような部分グラフにクラスタ分けするための手法を提案している。また、クラスタ分けされたグラフの性質についても考察している。これは、第3章で扱った手法に現れる巨大な共起グラフのパターンマッチングが計算量・収束性の点で問題となることに対するひとつの解決を与えるものである。コーパスから作成した共起グラフに対してこのクラスタ分けの手法を適用し、さらに結果のクラスタをもとに主成分分析を用いて新聞記事を分類し、その正当性を検討している。

 第5章「議論」では、第2〜4章の表層処理の手法の関係を論じている。語の意味は他の語との関係を通して定まるが、言語処理の過程では語の多義性が原因となって語の関係が入り乱れてしまい、正しい関係を見きわめるのが難しくなってくる。本論文で扱った問題は、表面的には異なる問題に見えるが、入り乱れた語の関係を適切に仕分けする手法の追求という点で共通するものであると述べている。ここでは、関係が密な語群は多義性が解消されている語群であるという仮定に基づいているが、本研究での実験によってこの仮定の妥当性が示されている。

 第6章「結論」は、本論文で扱った、自然言語の表層処理による多義性解消の手法をまとめたものである。

 付録として、本研究の過程で開発した、文章の多義性の解消問題を扱った実動ツールの概要をまとめている。

 以上を要するに、本論文は自然言語処理における多義性解消の問題を表層処理という観点から追求し、手法の提案と実験による検証に基づき、その有効性と限界を論じたもので、情報工学の発展に寄与するところが大きい。よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク