学位論文要旨



No 121649
著者(漢字) 薬師寺,あかね
著者(英字)
著者(カナ) ヤクシジ,アカネ
標題(和) 深い統語解析を用いた関係情報抽出
標題(洋) Relation Information Extraction Using Deep Syntactic Analysis
報告番号 121649
報告番号 甲21649
学位授与日 2006.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第74号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 米澤,明憲
 東京大学 教授 今井,浩
 東京大学 教授 高木,利久
 東京大学 助教授 渋谷,哲朗
 東京大学 助教授 黒橋,禎夫
内容要旨 要旨を表示する

There has been an increasing need for natural language processing technology to Information Extraction (IE), such as relations between entities, which are more informative than mere documents searched by key words.

This dissertation proposes a novel method to construct and utilize extraction patterns for relation extraction based on deep syntactic relations obtained by full parsing.

The process which requires the most amount of manual work in construction of IE systems is construction of extsl{extraction patterns} which extract target information from source texts, because the same information can be represented through many kinds of syntactic variations.

To reduce this amount of manual work, our approach has two phases:

First, we raise representation ability of extraction patterns and reduce number of necessary patterns by normalizing syntactic variations into predicate-argument structures (PASs) using a full parser based on Head-driven Phrase Structure Grammar (HPSG).

Then, PASs which connect entities to extract in a small training corpus are considered as extraction patterns, and we divide them into components and utilize combinations of the components for generalization.

As a real world application, we have constructed an IE system for protein-protein interactions, which are important knowledge in biomedical research.

We evaluated the IE system on a small test-case corpus and a large real-world corpus, and show its effectiveness.

This dissertation also describes aspects that should be considered to ensure effectiveness of full parsers on domain-specific IE.

The first aspect is the ability of deep syntactic relations obtained by parsing to capture syntactic information, which is necessary for constructing extraction patterns.

To show enough accuracy of full parsing on a biomedical text, we evaluated precision of primitive PASs obtained from a biomedical text by an HPSG parser. And to compare performance of PAS patterns to patterns of part-of-speeches, we also evaluated performance of verb-argument relations obtained from a biomedical text by an HPSG parser and by patterns of part-of-speeches.

The second aspect is difficulties to apply general parsers to domain-specific domains.

To measure domain-specific coverage of a general-purpose HPSG, we investigated deficiencies of the grammar on parsing a biomedical text.

We also show preliminary investigation on performance of general-purpose parsers that suggested parsing accuracy on general corpus does not ensure parsing accuracy or IE accuracy on a domain-specific text.

Through all results on this dissertation, we show that full parsing is effective for IE.

To obtain more performance of an domain-specific IE with full parsing, we should use shallow information in sentences, such as surface words, in combination of full parsing results.

And it is also necessary to develop a full parser not only with consideration to general-purpose corpora but also with consideration to domain-specific text.

審査要旨 要旨を表示する

本論文は、生物医学テキストベース(Medline)から蛋白質間の相互作用に関する方法を自動抽出する研究についてまとめたものである。特に、浅い、部分的な統語解析のみを行う従来の手法と異なり、深く、かつ、完全な統語解析を行った後に情報抽出を行う、これまでにない野心的な枠組みを提案し、700万抄録(7千万文)を超える巨大なMedlineテキストベースを使って提案枠組みの実用性を実証している。このように、本論文は、情報抽出の新しい枠組みの提案、および、その有効性の大規模テキストベースによる実証に、主たる貢献がある。以下に、各章について説明する。

第1章では、生命科学分野、特に、蛋白質間相互作用に関する情報抽出の必要性をのべ、従来手法である機械学習と規則主導の2つの手法を紹介している。第2章では、1章での2つの手法が、ともに、分野とタスクに大きく依存し、研究成果の汎用性に問題があることを指摘し、深い統語解析を前段階で実行する本研究のシステム構成が、従来手法の欠陥を補うものであることを指摘している。第3章では、本研究が比較の対象とするベースライン・システムとして、テキサス大学と日立製作所の2つのシステムを中心に関連研究を簡潔にまとめている。

第4章、第5章では、深い統語解析が情報抽出という実用システムに有効な技術であることを、ペンシルベニア大学で開発されたXTAG解析プログラムを使った抽出実験、および、動詞を中心とした規則自動抽出の実験を行うことで、実証している。4章の実験は、英語解析文法の被覆率が本研究の枠組みに必須の条件であること、また、5章の実験では、深い統語解析が動詞中心のパターン規則の学習を少量のテキストで可能とすることを示しており、この2つの章は、6章の本格的なシステム構築を行う際の指針を与えている。

第6章では、(1)パターン規則構築を動詞中心の事象関係のパターン、名詞句中心の「もの」に関するパターンに分離して学習すること、(2)パターンの信頼度を算出することで、要求されるPrecisionとRecall率にあわせた規則集合が構築できること、また、(3)これらの部分パターンと規則中の単語を素性としたClassifier(SVM)を使用することで、規則集合だけの場合よりもはるかに優れた結果が得られること、を示している。また、人手によって構築されたReactomeのデータベースと比較することで、構築したシステムの性能を評価している。特に、システムが発見した蛋白質対でReactomeに未登録の対が7620対存在し、そのうち、60%がReactomeに登録されるべきものであることが確認できるなど、システムのパフォーマンスが非常に優れたものであったことを報告している。結果が膨大なため、正確なパフォーマンス測定はないが、サンプル調査の結果としての数値は、Precison64.4%、Recall85.3%と非常に良好なものであった。

第7章では、提案手法の特徴である分野非依存性を実現するために、深い文解析システムがもつべき特徴に関して整理している。言語自体の分野依存性は、タスク依存性よりもさらに困難な課題であり、ここでの議論は、第9章での今後の課題に引き継がれている。

以上のように、本研究は、深い統語解析の結果を情報抽出という現実的な課題に適用し、しかも、7千万文という膨大な文集合を処理することで、その有効を確認した世界で最初の研究となっている。システムの性能も、世界水準に達するものであり、今後のこの分野での新たな研究方向を示唆する貴重なものとなっている。

以上より、本論文は、博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク