自然言語処理では、文解析時に生じる構造的曖昧性を如何に解消するかが大きな課題の一つである。一般的には、語彙意味知識を用いれば、曖昧性はかなりの程度まで解消できることが知られている。このような語彙意味知識の量が膨大であるため、それをコーパス・データから自動的に獲得することが期待されている。従来では、語彙意味知識の自動獲得問題は必ずしも十分研究されていなかった。本論文では、確率的なアプローチによる語彙意味知識獲得の一方法、ひいては、構造的曖昧性解消の一方法を提案する。 語彙意味知識の獲得と利用の問題、特に格フレーム・パターンと呼ばれる知識の獲得と利用の問題は以下のようにとらえることができる。まず、学習モジュールがコーパス・データから格フレーム(事例)を抽出し、抽出された格フレームを基に格フレーム・パターンを獲得し、コンピュータ上に格納する。次に、処理モジュールが格納された格フレーム・パターンを参照し、新しく入力された格フレームの受理できる度合を計算し、その受理の可否を判断する。 本研究は以下の特徴をもつ。(1)語彙意味知識獲得の問題を三つの部分問題に分割し、それぞれの問題の究明を図る。三つの部分問題とは、格スロットの一般化、格スロット間の依存関係の学習、単語の自動クラスタリングである。(2)それぞれの部分問題に対して確率モデルを定義し、それぞれの部分問題を確率モデルの推定問題として定式化する。(3)情報理論や数理統計学で提案されている「記述長最小の原理(MDL原理)」をモデルの選択基準とする。(4)効率的な学習アルゴリズムを用いる。(5)学習できた知識を構造的曖昧性解消に利用し、その正解率の向上を図る。 語彙意味知識獲得問題をいくつかの部分問題に分割したのは、この問題は極めて複雑で、研究の第一歩としてそうしたほうがいいという考えに基づいている。また、MDL原理を用いることによって、統計的なアプローチによる自然言語処理の際にしばしば起きる「データ・スパース問題」を解決することができる。 第3章では、各部分問題に対していくつかの確率モデルを定義する。(1)格スロットの一般化問題に対して、ハードな格スロットモデルとソフトな格スロットモデルを、(2)格スロット間の依存関係の学習問題に対して、単語ベースの格フレーム・モデルとクラス・ベースの格フレーム・モデルとスロット・ベースの格フレーム・モデルを、(3)単語の自動クラスリング問題に対して、ハードな共起モデルとソフトな共起モデルを定義する。 語彙意味知識獲得問題を確率モデルの推定問題としてとらえると、構造的曖昧性解消問題は統計的予測問題となる。具体的には、得られる複数の曖昧な解釈の尤度を上記確率モデルに基づき計算し、尤度のもっとも高い解釈を選択することができる。 第4章では、ハードな格スロット・モデルの学習法、つまり、格スロットの一般化法について述べる。まず、効率的に学習を行うため、ハードな格スロット・モデルのクラスをトリー・カット・モデルのクラスに制限する。そうすると、格スロットの一般化問題は与えられたシソーラスにおけるトリー・カット・モデルの推定問題となる。学習の際、MDLの意味で最適なトリー・カット・モデルを見つけ出す保証のある効率的なアルゴリズムを用いる。この方法は、格スロット・データを入力とし、与えられたシソーラスにおけるトリー・カット・モデルを格スロットの一般化結果として出力する。実際、以下のように格スロットの一般化を行う。ある単語クラスにおける単語の注目格スロットにおける出現頻度の差が著しくなければ、それらの単語をそのクラスに一般化する。さもなければ、それらの単語のレベルで一般化を停止する。 第5章では、格フレーム・モデルの学習法、つまり、格スロット間の依存関係の学習法について述べる。まず、効率性のため、格フレーム・モデルのクラスを確率依存森モデルのクラスに制限する。そうすると、格フレーム・パターンは確率依存森モデルによって表現されることになる。確率依存森モデルでは、ノードが格スロットを表し、リンクが格スロット間の依存関係を表す。学習の際、MDLの意味で最適な確率依存森モデルを見つけ出す保証のある効率的なアルゴリズムを用いる。この方法は、格フレームの事例を入力とし、格フレーム・パターンとしての確率依存森モデルを出力する。実際、以下のように格スロット間の依存関係を学習する。まず、すべてのノード・ペアの間の相互情報量を計算し、相互情報量の大きさ順にノード・ペアをソートする。次に、相互情報量のもっとも大きいノード・ペアの相互情報量の値がある可変の閾値を超えれば、そのノード・ペアの間にリンクを結ぶ。以上の過程を繰り返し、依存森(確率依存森モデル)を作成していく。但し、依存グラフがループを形成するようなリンクを結ばないようにする。 第6章では、ハードな共起モデルの学習法、即ち、単語の自動クラスタリング法について述べる。学習の際、MDLの意味での準最適なモデルをハードな共起モデルのクラスから順次選択する。この方法は、単語の共起データを入力とし、ハードな共起モデルを単語のクラスタリング結果として出力する。具体的には、交互にまたボトムアップ的に、例えば、名詞と動詞のクラスタをマージしていく。各マージにおいて、任意の二つの名詞クラスタ(或は、動詞クラスタ)をマージする場合による相互情報量の減少分を計算し、減少分がある可変な閾値以下のマージの中で減少分のもっとも少いマージを実行する。 第7章では、ハードな共起モデルとトリー・カット・モデルを用いた曖昧性解消法を提案する。まず、各格スロットに対するハードな共起モデルとトリー・カット・モデルを学習しておく。曖昧性解消では、まず前者の確率モデルを参照し、各解釈の尤度を計算し、尤度のもっとも大きい解釈を選択する。各解釈の尤度が等しい場合は、さらに後者の確率モデルを参照し、各解釈の尤度を計算し、尤度のもっとも大きい解釈を選択する。それでも各解釈の尤度が等しい場合は、さらにデフォルト的に解釈を一つ選択する。この方法による曖昧性解消の正解率は85.2%で、現在自然言語処理分野における代表的な方法よりよいこともわかった。 |