本論文は、「自然言語の表層処理に基づく多義性解消に関する研究」と題し、二言語辞書の改訂、類似文書の検索、自動翻訳における訳語選択、シソーラスの改訂など自然言語の意味処理に多義性の解消という視点から検討を加え、言語の表層的な処理によってこれを実現する方法を論じたもので、6章よりなる。ここで扱っている言語の多義性とは、ある語や文に対応する語や文の候補が複数存在することである。これらの候補のなかから不適当な候補を除くことにより、類似する候補だけに限定することが多義性の解消にあたる。本論文では、大量の言語データの統計処理を多義性解消に利用する手法を扱い、電子辞書から抽出される訳語関係、類語関係や、コーパスから抽出される共起関係を用いるという表層処理の有効性を明らかにしている。 第1章「序論」では、自然言語の意味に関する考え方を概観し、多義性解消が本質的であるような問題をとりあげ、それらを表層的処理によって解決することが工学的なひとつの方向であるとの立場を述べ、本論文で論じる研究の目的を明確にしている。 第2章「第三言語を介した対訳辞書の作成」では、第三言語を介して二言語辞書を作成する手法を論じ、実験結果と現存の辞書との比較により有効性を検討している。そこでは、和英辞典と英仏辞典から英語(第三言語)を仲介として和仏辞典を作成する際に、英語において機械的に辞書を合体させるだけでは第三言語の語の多義性により不適当な訳語が生じることを例示し、正しい訳語のみを自動抽出する手法の必要性を述べている。このような問題に対して、語と訳語関係から形成されるグラフと語の形態素がもつ表意とを利用した手法を提案し、実際に既存の中辞典規模の電子辞書の名詞、動詞、形容詞に対して行なった実験例を示している。実験結果を既存の仏和辞典と比較し、この辞書にはない訳語が得られていて、辞書の改訂に有用であることを例証している。第三言語を介して辞書を引くことは、国際性の低い言語や専門の分野を扱う場合は不可欠であるが、これを自動化することによって、より多くの言語間、より多様な分野での対訳辞書を自動作成することができるようになると主張している。 第3章[非対訳コーパスを用いた訳語関係の抽出」では、日本語、英語の独立のコーパス(非対訳コーパス)を用いて和英間の訳語関係を抽出する手法を提案している。これは、語とその訳語関係による辞書内のグラフ構造と形態素を用いた第2章の多義性の解消法を補うもので、辞書以外のデータを用いて精度を向上させようとする表層処理のひとつである。「第一言語で共起する二つの語の訳語は、第二言語でも共起する」という仮定に基づき、第一言語から第二言語への翻訳を行列によって表現し、共起関係の翻訳を行列計算として定式化している。これは、第一言語の共起情報の翻訳と第二言語の共起情報が類似するように翻訳行列を変換することにより、文脈に基づく訳語関係の多義性解消を実現しようとするものであり、二言語でコーパスから得た語と共起関係によって得られるグラフ(共起グラフ)のパターンマッチングに相当している。本章では、この手法が局所文脈に基づいた訳語の選択に有効であることを検証するとともに、第一、二言語で非対訳コーパスから大域的な訳語関係を抽出するために、翻訳行列を逐次的に最適化する方法を示して、有効性を検討する実験を行なっている。 第4章「推移律に基づく共起グラフのクラスタ分け」では、多義性を共起関係の推移律という観点から捉え、共起グラフを推移律が成立するような部分グラフにクラスタ分けするための手法を提案している。また、クラスタ分けされたグラフの性質についても考察している。これは、第3章で扱った手法に現れる巨大な共起グラフのパターンマッチングが計算量・収束性の点で問題となることに対するひとつの解決を与えるものである。コーパスから作成した共起グラフに対してこのクラスタ分けの手法を適用し、さらに結果のクラスタをもとに主成分分析を用いて新聞記事を分類し、その正当性を検討している。 第5章「議論」では、第2〜4章の表層処理の手法の関係を論じている。語の意味は他の語との関係を通して定まるが、言語処理の過程では語の多義性が原因となって語の関係が入り乱れてしまい、正しい関係を見きわめるのが難しくなってくる。本論文で扱った問題は、表面的には異なる問題に見えるが、入り乱れた語の関係を適切に仕分けする手法の追求という点で共通するものであると述べている。ここでは、関係が密な語群は多義性が解消されている語群であるという仮定に基づいているが、本研究での実験によってこの仮定の妥当性が示されている。 第6章「結論」は、本論文で扱った、自然言語の表層処理による多義性解消の手法をまとめたものである。 付録として、本研究の過程で開発した、文章の多義性の解消問題を扱った実動ツールの概要をまとめている。 以上を要するに、本論文は自然言語処理における多義性解消の問題を表層処理という観点から追求し、手法の提案と実験による検証に基づき、その有効性と限界を論じたもので、情報工学の発展に寄与するところが大きい。よって本論文は博士(工学)の学位請求論文として合格と認められる。 |