学位論文要旨



No 114934
著者(漢字) 野畑,周
著者(英字)
著者(カナ) ノバタ,チカシ
標題(和) 情報抽出システムのための知識獲得
標題(洋) KNOWLEDGE ACQUISITION FOR AN INFORMATION EXTRACTION SYSTEM
報告番号 114934
報告番号 甲14934
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第3698号
研究科 理学系研究科
専攻 情報科学専攻
論文審査委員 主査: 東京大学 教授 高木,利久
 東京大学 教授 益田,隆司
 東京大学 助教授 中井,謙太
 東京大学 助教授 森下,真一
 東京工業大学 助教授 徳永,健伸
内容要旨

 計算機上で文章を読み書きすることがひろく行われるようになってきた現在、大量の文章から効率良く情報を得る需要が高まりつつある。文章に書かれている内容から、特に注目すべき情報を取り出し、データベースなど予め定義された形式に沿って格納する技術は情報抽出と呼ばれ、それを自動的に行なうシステムの研究が進められている。しかし現時点では、異なる分野の文章に対して情報抽出を行なうためには、システムが利用する知識データの多くを新たに作成する必要がある。

 本論文では、可能な限り分野に依存しない手法によって情報抽出システムが用いるパターンを自動的に獲得する手法を提案する。この手法では、情報抽出のサブタスクとして定義される固有表現抽出を行うシステムを用い、またキーワードによって記事・文の選択を行なう。これにより、パターン獲得における分野の依存度は、固有表現抽出の定義と用意されたキーワードによるものに限られ、異なる情報抽出タスクについて同一のシステムでパターンを獲得することができる。また、パターン獲得手法の改良と固有表現抽出システムの精度向上とは独立に行なうことができる。

 本論文の内容は、固有表現抽出システムの拡張・精度評価、固有表現抽出の難易度を評価する手法の提案・評価、情報抽出システムのためのパターン獲得手法の提案・評価という3つの部分からなる。

 まず、固有表現抽出システムの拡張手法とその精度評価について述べる。システムのポータビリティを高めるために、情報抽出のタスクのうち、対象分野に比較的依存しない部分をサブタスクとして定義し、そのタスクについて精度向上を試みる研究が行なわれている。Named Entity Task(固有表現抽出)は、そのような情報抽出のサブタスクとして定義されたものの一つであり、その分野で特に注目すべき語句を文章全体にわたって認識するタスクである。固有表現抽出システムの精度を向上させること、ポータビリティを高めることを目的とし、本研究では、既存の日本語固有表現抽出システムを拡張し、その評価を行なった。既存のシステムは決定木を用いてトレーニングデータから学習を行なうシステムである。このシステムについて、決定木作成の際に用いるデータの追加、改良を行ない、日本語固有表現抽出システムの評価コンテストに参加した。このコンテストでは2種類の課題が与えられた。総合課題は新聞記事の分野は限定されない課題であり、一方分野限定課題では新聞記事を警察組織による逮捕について述べたものに限定した課題である。システムの評価結果を表1に示す。

表1:日本固有表現抽出システムの性能評価

 本システムは総合課題では15システム中7位、分野限定課題では15システム中4位であった。さらに、英語の文章についても処理できるようシステムを拡張し、英語生物学論文のアブストラクト中に現れる専門用語を認識・分類するタスクについて実験・評価を行なった。結果を表2に示す。用いたコーパスはMEDLINEから選択されたものであり、対象とする表現はタンパク質名(PROTEIN)、遺伝子名(DNA,RNA)、生物名・生体組織名(SOURCE)である。

表2:英語固有表現抽出システムの評価結果

 精度向上の余地はあるが、これらの結果によって分野や言語の違いに容易に対応できる固有表現抽出システムが構築できることが示された。

 次に、固有表現抽出の難易度を評価する手法について述べる。対象分野に依存しないシステムの構築を行なうためには、対象分野に特有な知識を用いずにどこまで固有表現抽出が可能かという難易度が客観的に示されることが望ましい。これによって、どの程度まで対象分野に依存しない固有表現抽出が可能かを判断することができるからである。各々のコーパスにおいて、多くの異なるシステムが、全く同じ条件で固有表現抽出を行なっていれば、固有表現抽出の難易度はシステムの精度評価によって客観的に示される。一方、同一条件下での多くのシステムの抽出結果が得られない場合、システムの評価結果から固有表現抽出の難易度を知ることはそれほど容易でない。本研究では、テストコーパスを調べることで、固有表現抽出システムを用いることなしに固有表現抽出の難易度を推定する手法を提案し、先に述べた評価コンテストで日本語固有表現抽出の難易度の差を分析した。コンテストに参加した15システムの評価結果との相関を調べることによって、指標の妥当性を評価した。固有表現の頻度に基づいた指標(FE)、固有表現内の単語の頻度に基づいた指標(FW)、固有表現内の文字の頻度に基づいた指標(FC)それぞれに対するシステムの評価結果との相関係数は表3に示すように非常に高く、これらが固有表現抽出タスクの難易度を示す指標として有効であることを示している。さらに、固有表現抽出に役立つと考えられる単語や文字を選択する指標を提案し、その結果に基づいて固有表現クラス間の性質の差を分析した。

 最後に、情報抽出システムのためのパターン獲得手法について述べる。情報抽出システムの多くは、言語的なパターンによって重要な表現を取り出すパターンマッチングと呼ばれる手法を用いている。パターンマッチングでは、情報抽出の対象となる分野が変わるごとに、対応するパターンを新たに作成することが必要になる。本論文では、情報抽出に用いる言語的パターンをほぼ自動的にかつ対象分野に依存することなく獲得する手法を提案する。提案するパターン獲得手法は、教師つき学習の過程と教師なし学習の過程の2段階から成る。最初の過程では、先に述べた固有表現抽出を行ない、パターンとして有用と見なせる文をコーパス中から選択する。次の過程では、最初の過程で得られた文の集合から、情報抽出のための言語的パターンを作成する。この過程はトレーニングデータを必要とせず、また言語にも依存しない。この手法を適用し、新聞記事からの人事異動に関する情報抽出のためのパターンを獲得し、そのパターンを用いたパターンマッチングによって認識できる表現の精度を評価した。表4に、人手で作成したパターンとの精度の比較結果を示す。自動獲得されたパターンの精度は人手によるものに近い値を示しており、パターン生成のコストを軽減し、かつある程度の質のパターンを獲得できる可能性を示している。

図表表3:固有表現抽出システムの評価結果と提案した指標との相関 / 表4:パターン生成の結果
審査要旨

 本論文は7章からなる。第1章では研究の背景と動機および論文の構成が述べられている。ここでは、現在急増している電子化文書からある事象に関する情報を計算機を用いていかにして自動的に取り出すかという問題が取り上げられている。この問題は自然言語処理研究分野で「情報抽出」と呼ばれ広く研究されているが、従来、情報抽出の対象となる分野が変わる毎に情報抽出システムで使用する言語的パターンを変更しなければならないという難点があった。ここでいう言語的パターンとは取り出したい事象を構成する人名や物質などの固有物の表現やそれらの固有物の間の関係を抽象的なパターンとして表現したものである。一般に情報抽出システムにおいては、この言語的パターンと文章とのマッチングをとることにより、文章中の固有物およびそれらの間の関係を認識しそれを抽出する。この言語的パターンを対象分野が変わる度に作成するのは大変な手間がかかる。本研究では、できるだけ対象分野に依存しない一般的な方法で言語的パターンを構築する手法を提案するとともに、その手法を具体的な情報抽出問題に適用し評価している。

 情報抽出の第一歩は事象を構成する固有物を表す表現を文章中で認識し抽出することである。第2章では既存の固有表現抽出システムの拡張法が述べられている。この方法では決定木を用いてトレーニングデータから学習を行なうように設計されているため、システム自身は対象分野には依存しない。2章ではさらに、この拡張された固有表現抽出システムを日本語新聞記事に適用した際の性能の評価が報告されている。このシステムは日本語固有表現抽出システムの評価コンテストで課された二つの課題のうち一方で中位、他方では上位の成績を修めている。第3章では、英語で書かれた生物学文献からタンパク質名などの固有表現抽出に取り組んだ結果が述べられている。日本語および英語の二つの異なる性質の文章に対するこれらの適用実験から本論文で提案している手法の有効性が確かめられたことが報告されている。

 対象分野に依存しない形で固有表現を抽出するシステムを開発するためにはその固有表現を抽出することが対象領域の固有の知識を使わなくてどこまで可能かを客観的に測るような指標があれば都合がよい。なぜなら、このような指標があれば、どの程度まで対象分野に依存しない手法が適用可能か判断することができ、情報抽出システム構築の指針が得られるからである。第4章では、このような固有表現抽出の難易度を測る指標をいくつか提案している。さらに、それらの指標を日本語新聞記事に適用し、その結果を比較することでどのような指標が優れているかを報告している。また、指標の値とともに固有表現抽出に有用な文字や単語を文章から選択する手法を提案し、その結果を提示している。これは固有表現抽出に有用な情報を自動的に発見し学習するシステムの構築につながり、対象分野に依存しない固有表現抽出の可能性をひろげることを目的としている。5章では英語生物学文献に対して同じように難易度指標を定義し、それらの指標の効果を調べている。

 第6章では、上記の成果を踏まえて、情報抽出システムで使用する言語的パターンを自動的に獲得する手法を提案している。この手法ではまず利用者が与えるキーワードから関連文献を検索する。次に、それらの文献に対する固有bu表現抽出の結果と先のキーワードとを用いて抽出したい情報を含んだ文を選択する。最後に、それらの文に含まれている共通パターンを取り出す。6章ではさらにこのようにして抽出されたパターンがどの程度正しいかを実際に人間が手で抽出したパターンと比較し評価を行なっている。第7章は最終章であり、本論文のまとめと今後の課題とが述べられている。

 本論文に述べられた研究成果は情報科学とくに自然言語処理の進展に寄与するものである。本研究は、対象分野に依存しない情報抽出システムを構築するために必要となるいくつかの手法を提案し、その有効性を実際の情報抽出問題に適用し確かめている。このことは自然言語処理とくにテキストからの情報抽出研究にとって大きな貢献である。

 なお、本論文の第3章はNigel Collier氏および辻井潤一氏との、第6章は関根聡氏との共同研究であるが、論文提出者が主体となって提案、分析、評価を行なったもので、論文提出者の寄与が十分であると判断する。

 したがって、博士(理学)を授与できると認める。

UTokyo Repositoryリンク