学位論文要旨



No 213917
著者(漢字) 李,航
著者(英字)
著者(カナ) リ,コウ
標題(和) 確率的なアプローチによる語彙意味知識獲得と構造的曖昧性解消
標題(洋) A Probabilistic Approach to Lexical Semantic Knowledge Acquisition and Structural Disambiguation
報告番号 213917
報告番号 乙13917
学位授与日 1998.07.13
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第13917号
研究科
専攻
論文審査委員 主査: 東京大学 教授 辻井,潤一
 東京大学 教授 高木,利久
 東京大学 助教授 今井,浩
 奈良先端科学技術大学院大学 教授 松本,裕治
 徳島大学 助教授 北,研二
内容要旨

 自然言語処理では、文解析時に生じる構造的曖昧性を如何に解消するかが大きな課題の一つである。一般的には、語彙意味知識を用いれば、曖昧性はかなりの程度まで解消できることが知られている。このような語彙意味知識の量が膨大であるため、それをコーパス・データから自動的に獲得することが期待されている。従来では、語彙意味知識の自動獲得問題は必ずしも十分研究されていなかった。本論文では、確率的なアプローチによる語彙意味知識獲得の一方法、ひいては、構造的曖昧性解消の一方法を提案する。

 語彙意味知識の獲得と利用の問題、特に格フレーム・パターンと呼ばれる知識の獲得と利用の問題は以下のようにとらえることができる。まず、学習モジュールがコーパス・データから格フレーム(事例)を抽出し、抽出された格フレームを基に格フレーム・パターンを獲得し、コンピュータ上に格納する。次に、処理モジュールが格納された格フレーム・パターンを参照し、新しく入力された格フレームの受理できる度合を計算し、その受理の可否を判断する。

 本研究は以下の特徴をもつ。(1)語彙意味知識獲得の問題を三つの部分問題に分割し、それぞれの問題の究明を図る。三つの部分問題とは、格スロットの一般化、格スロット間の依存関係の学習、単語の自動クラスタリングである。(2)それぞれの部分問題に対して確率モデルを定義し、それぞれの部分問題を確率モデルの推定問題として定式化する。(3)情報理論や数理統計学で提案されている「記述長最小の原理(MDL原理)」をモデルの選択基準とする。(4)効率的な学習アルゴリズムを用いる。(5)学習できた知識を構造的曖昧性解消に利用し、その正解率の向上を図る。

 語彙意味知識獲得問題をいくつかの部分問題に分割したのは、この問題は極めて複雑で、研究の第一歩としてそうしたほうがいいという考えに基づいている。また、MDL原理を用いることによって、統計的なアプローチによる自然言語処理の際にしばしば起きる「データ・スパース問題」を解決することができる。

 第3章では、各部分問題に対していくつかの確率モデルを定義する。(1)格スロットの一般化問題に対して、ハードな格スロットモデルとソフトな格スロットモデルを、(2)格スロット間の依存関係の学習問題に対して、単語ベースの格フレーム・モデルとクラス・ベースの格フレーム・モデルとスロット・ベースの格フレーム・モデルを、(3)単語の自動クラスリング問題に対して、ハードな共起モデルとソフトな共起モデルを定義する。

 語彙意味知識獲得問題を確率モデルの推定問題としてとらえると、構造的曖昧性解消問題は統計的予測問題となる。具体的には、得られる複数の曖昧な解釈の尤度を上記確率モデルに基づき計算し、尤度のもっとも高い解釈を選択することができる。

 第4章では、ハードな格スロット・モデルの学習法、つまり、格スロットの一般化法について述べる。まず、効率的に学習を行うため、ハードな格スロット・モデルのクラスをトリー・カット・モデルのクラスに制限する。そうすると、格スロットの一般化問題は与えられたシソーラスにおけるトリー・カット・モデルの推定問題となる。学習の際、MDLの意味で最適なトリー・カット・モデルを見つけ出す保証のある効率的なアルゴリズムを用いる。この方法は、格スロット・データを入力とし、与えられたシソーラスにおけるトリー・カット・モデルを格スロットの一般化結果として出力する。実際、以下のように格スロットの一般化を行う。ある単語クラスにおける単語の注目格スロットにおける出現頻度の差が著しくなければ、それらの単語をそのクラスに一般化する。さもなければ、それらの単語のレベルで一般化を停止する。

 第5章では、格フレーム・モデルの学習法、つまり、格スロット間の依存関係の学習法について述べる。まず、効率性のため、格フレーム・モデルのクラスを確率依存森モデルのクラスに制限する。そうすると、格フレーム・パターンは確率依存森モデルによって表現されることになる。確率依存森モデルでは、ノードが格スロットを表し、リンクが格スロット間の依存関係を表す。学習の際、MDLの意味で最適な確率依存森モデルを見つけ出す保証のある効率的なアルゴリズムを用いる。この方法は、格フレームの事例を入力とし、格フレーム・パターンとしての確率依存森モデルを出力する。実際、以下のように格スロット間の依存関係を学習する。まず、すべてのノード・ペアの間の相互情報量を計算し、相互情報量の大きさ順にノード・ペアをソートする。次に、相互情報量のもっとも大きいノード・ペアの相互情報量の値がある可変の閾値を超えれば、そのノード・ペアの間にリンクを結ぶ。以上の過程を繰り返し、依存森(確率依存森モデル)を作成していく。但し、依存グラフがループを形成するようなリンクを結ばないようにする。

 第6章では、ハードな共起モデルの学習法、即ち、単語の自動クラスタリング法について述べる。学習の際、MDLの意味での準最適なモデルをハードな共起モデルのクラスから順次選択する。この方法は、単語の共起データを入力とし、ハードな共起モデルを単語のクラスタリング結果として出力する。具体的には、交互にまたボトムアップ的に、例えば、名詞と動詞のクラスタをマージしていく。各マージにおいて、任意の二つの名詞クラスタ(或は、動詞クラスタ)をマージする場合による相互情報量の減少分を計算し、減少分がある可変な閾値以下のマージの中で減少分のもっとも少いマージを実行する。

 第7章では、ハードな共起モデルとトリー・カット・モデルを用いた曖昧性解消法を提案する。まず、各格スロットに対するハードな共起モデルとトリー・カット・モデルを学習しておく。曖昧性解消では、まず前者の確率モデルを参照し、各解釈の尤度を計算し、尤度のもっとも大きい解釈を選択する。各解釈の尤度が等しい場合は、さらに後者の確率モデルを参照し、各解釈の尤度を計算し、尤度のもっとも大きい解釈を選択する。それでも各解釈の尤度が等しい場合は、さらにデフォルト的に解釈を一つ選択する。この方法による曖昧性解消の正解率は85.2%で、現在自然言語処理分野における代表的な方法よりよいこともわかった。

審査要旨

 本論文は、自然言語処理における語彙意味知識獲得と構造的な曖昧性解消に関するものである。

 自然言語処理では、構文解析における構造的な曖昧性解消が大きな課題の一つとなっている。また、語彙意味知識を用いれば、曖昧性はかなりの程度まで解消できることも知られている。しかし、語彙意味知識の量が膨大であるため、人間がそれらを作成するのに多大な労力が要される。また、人間の作成した知識には客観性が欠くという問題点もある。語彙意味知識を電子化された言語データから自動的に獲得することが期待されている。従来では、語彙意味知識の獲得に関する研究が幾つかあったが、理論的な基礎のしっかりしたものが少なかった。本論文は、確率的なアプローチによる語彙意味知識獲得法、さらに構造的曖昧性解消法が提案されている。

 本論文では、語彙意味知識の獲得問題が三つの部分問題に分割され、それぞれの部分問題の究明が図られている。三つの部分問題とは、格スロットの一般化、格スロット間の依存関係の学習、シソーラスの自動作成である。本論文では、それぞれの部分問題に対して確率モデルが定義され、各々の部分問題が確率モデルの推定問題として定式化されている。また、情報理論や数理統計学で提案されている「記述長最小の原理(MDL原理)」がモデルの選択基準として用いられ、効率的な学習アルゴリズムも提案されている。さらに、獲得できた知識を構造的曖昧性解消に利用する方法も提案された。

 本論文は8章からなる。第1章では、本研究の概要について述べられ、第2章では、関連研究について述べられている。

 第3章では、各部分問題に対していくつかの確率モデルが定義されている。(1)格スロットの一般化問題に対して、ハードな格スロットモデルとソフトな格スロットモデルが、(2)格スロット間の依存関係の学習問題に対して、単語ベースの格フレーム・モデルとクラス・ベースの格フレーム・モデルとスロット・ベースの格フレーム・モデルが、(3)シソーラスの自動作成問題に対して、ハードな共起モデルとソフトな共起モデルが定義されている。

 第4章では、ハードな格スロット・モデルの学習法、つまり、格スロットの一般化法について述べられる。まず、効率的に学習を行うため、ハードな格スロット・モデルのクラスがシソーラスにおけるトリー・カット・モデルのクラスに制限され、次に、MDL原理に基づくトリー・カット・モデルの効率的な推定アルゴリズムが提案されている。

 第5章では、格フレーム・モデルの学習法、つまり、格スロット間の依存関係の学習法について述べる。まず、効率性のため、格フレーム・モデルのクラスが確率依存森モデルのクラスに制限され、次に、MDL原理に基づく確率依存森モデルの効率的な学習アルゴリズムが提案されている。

 第6章では、ハードな共起モデルの学習法、即ち、シソーラスの自動作成法について述べられる。MDL原理に基づくハードな共起モデルの効率的な学習アルゴリズムが提案されている。

 第7章では、ハードな共起モデルとトリー・カット・モデルを用いた曖昧性解消法が提案されている。この方法による曖昧性解消の正解率が85.2%で、現在自然言語処理分野における代表的な方法よりよいことも報告されている。

 第8章では、全体のまとめと今後の課題について述べられている。

 本研究は、語彙意味知識獲得に関する初めての理論的かつ包括的な研究として注目に値する。本研究の自然言語処理研究に対する貢献は主に以下の三つの点であると思われる。第一に、語彙意味知識の定式化に成功したことである。確率モデルによって語彙意味知識を表現することは、数理統計学のアプローチによる語彙意味知識の獲得が可能になることを意味し、この分野の今後のさらなる発展のための一つの基礎が築かれたと言える。第二に、語彙意味知識獲得のための手法を幾つか開発したことである。特に、MDL原理という情報理論的な手法を語彙意味知識獲得に用いる点が興味深いと思われる。第三に、高性能な曖昧性解消法を開発したことである。本研究は実際の自然言語処理に役立つ手法を提供している点も評価すべきであると思われる。

 なお、本論文の第4章から第7章までの内容は、安倍直樹氏との共同研究によるものであるが、論文提出者が主体となって問題の分析、および検証を行ったもので、論文提出者の寄与が十分であると判断する。

 従って、博士(理学)を授与できると認める。

UTokyo Repositoryリンク