計算機上で文章を読み書きすることがひろく行われるようになってきた現在、大量の文章から効率良く情報を得る需要が高まりつつある。文章に書かれている内容から、特に注目すべき情報を取り出し、データベースなど予め定義された形式に沿って格納する技術は情報抽出と呼ばれ、それを自動的に行なうシステムの研究が進められている。しかし現時点では、異なる分野の文章に対して情報抽出を行なうためには、システムが利用する知識データの多くを新たに作成する必要がある。 本論文では、可能な限り分野に依存しない手法によって情報抽出システムが用いるパターンを自動的に獲得する手法を提案する。この手法では、情報抽出のサブタスクとして定義される固有表現抽出を行うシステムを用い、またキーワードによって記事・文の選択を行なう。これにより、パターン獲得における分野の依存度は、固有表現抽出の定義と用意されたキーワードによるものに限られ、異なる情報抽出タスクについて同一のシステムでパターンを獲得することができる。また、パターン獲得手法の改良と固有表現抽出システムの精度向上とは独立に行なうことができる。 本論文の内容は、固有表現抽出システムの拡張・精度評価、固有表現抽出の難易度を評価する手法の提案・評価、情報抽出システムのためのパターン獲得手法の提案・評価という3つの部分からなる。 まず、固有表現抽出システムの拡張手法とその精度評価について述べる。システムのポータビリティを高めるために、情報抽出のタスクのうち、対象分野に比較的依存しない部分をサブタスクとして定義し、そのタスクについて精度向上を試みる研究が行なわれている。Named Entity Task(固有表現抽出)は、そのような情報抽出のサブタスクとして定義されたものの一つであり、その分野で特に注目すべき語句を文章全体にわたって認識するタスクである。固有表現抽出システムの精度を向上させること、ポータビリティを高めることを目的とし、本研究では、既存の日本語固有表現抽出システムを拡張し、その評価を行なった。既存のシステムは決定木を用いてトレーニングデータから学習を行なうシステムである。このシステムについて、決定木作成の際に用いるデータの追加、改良を行ない、日本語固有表現抽出システムの評価コンテストに参加した。このコンテストでは2種類の課題が与えられた。総合課題は新聞記事の分野は限定されない課題であり、一方分野限定課題では新聞記事を警察組織による逮捕について述べたものに限定した課題である。システムの評価結果を表1に示す。 表1:日本固有表現抽出システムの性能評価 本システムは総合課題では15システム中7位、分野限定課題では15システム中4位であった。さらに、英語の文章についても処理できるようシステムを拡張し、英語生物学論文のアブストラクト中に現れる専門用語を認識・分類するタスクについて実験・評価を行なった。結果を表2に示す。用いたコーパスはMEDLINEから選択されたものであり、対象とする表現はタンパク質名(PROTEIN)、遺伝子名(DNA,RNA)、生物名・生体組織名(SOURCE)である。 表2:英語固有表現抽出システムの評価結果 精度向上の余地はあるが、これらの結果によって分野や言語の違いに容易に対応できる固有表現抽出システムが構築できることが示された。 次に、固有表現抽出の難易度を評価する手法について述べる。対象分野に依存しないシステムの構築を行なうためには、対象分野に特有な知識を用いずにどこまで固有表現抽出が可能かという難易度が客観的に示されることが望ましい。これによって、どの程度まで対象分野に依存しない固有表現抽出が可能かを判断することができるからである。各々のコーパスにおいて、多くの異なるシステムが、全く同じ条件で固有表現抽出を行なっていれば、固有表現抽出の難易度はシステムの精度評価によって客観的に示される。一方、同一条件下での多くのシステムの抽出結果が得られない場合、システムの評価結果から固有表現抽出の難易度を知ることはそれほど容易でない。本研究では、テストコーパスを調べることで、固有表現抽出システムを用いることなしに固有表現抽出の難易度を推定する手法を提案し、先に述べた評価コンテストで日本語固有表現抽出の難易度の差を分析した。コンテストに参加した15システムの評価結果との相関を調べることによって、指標の妥当性を評価した。固有表現の頻度に基づいた指標(FE)、固有表現内の単語の頻度に基づいた指標(FW)、固有表現内の文字の頻度に基づいた指標(FC)それぞれに対するシステムの評価結果との相関係数は表3に示すように非常に高く、これらが固有表現抽出タスクの難易度を示す指標として有効であることを示している。さらに、固有表現抽出に役立つと考えられる単語や文字を選択する指標を提案し、その結果に基づいて固有表現クラス間の性質の差を分析した。 最後に、情報抽出システムのためのパターン獲得手法について述べる。情報抽出システムの多くは、言語的なパターンによって重要な表現を取り出すパターンマッチングと呼ばれる手法を用いている。パターンマッチングでは、情報抽出の対象となる分野が変わるごとに、対応するパターンを新たに作成することが必要になる。本論文では、情報抽出に用いる言語的パターンをほぼ自動的にかつ対象分野に依存することなく獲得する手法を提案する。提案するパターン獲得手法は、教師つき学習の過程と教師なし学習の過程の2段階から成る。最初の過程では、先に述べた固有表現抽出を行ない、パターンとして有用と見なせる文をコーパス中から選択する。次の過程では、最初の過程で得られた文の集合から、情報抽出のための言語的パターンを作成する。この過程はトレーニングデータを必要とせず、また言語にも依存しない。この手法を適用し、新聞記事からの人事異動に関する情報抽出のためのパターンを獲得し、そのパターンを用いたパターンマッチングによって認識できる表現の精度を評価した。表4に、人手で作成したパターンとの精度の比較結果を示す。自動獲得されたパターンの精度は人手によるものに近い値を示しており、パターン生成のコストを軽減し、かつある程度の質のパターンを獲得できる可能性を示している。 図表表3:固有表現抽出システムの評価結果と提案した指標との相関 / 表4:パターン生成の結果 |