学位論文要旨



No 125367
著者(漢字) 原,忠義
著者(英字)
著者(カナ) ハラ,タダヨシ
標題(和) 深い構文解析器の効率的な分野適応および詳細なエラー分析
標題(洋) Efficient Domain Adaptation and Detailed Error Analysis of a Deep Parser
報告番号 125367
報告番号 甲25367
学位授与日 2009.09.28
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第249号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 萩谷,昌己
 東京大学 教授 本位田,真一
 東京大学 教授 相澤,彰子
 東京大学 准教授 渋谷,哲朗
 奈良先端科学技術大学院大学 教授 松本,裕治
内容要旨 要旨を表示する

Improvement of the performance of a parser is crucial in diverse applications of natural language processing such as machine translation, information extraction, automatic summarization, etc. In this thesis, we propose two approaches to this problem. One is to adapt the statistical model of a parser to a specific domain, while the other is to analyze errors systematically and thus avoid time consuming trial and error cycles involved in parser improvement. These two approaches are complementary to each other, and we also discuss in the thesis how to integrate these two approaches.

Thanks to recent progresses in statistical modeling, the performances of parsers have improved significantly. However, when one applies a parser to text in real application, one notices that the performance improvement in recent years is fairly elusive. Firstly, the performances reported in papers are based on experiments using specific corpora, typically articles in newswires such as Wall Street Journal. When applied to text in different domains such as papers in the biomedical domain, the performance of a parser tends to degrade significantly. Secondly, although the common metrics for evaluation of parser performance such as the F-values of labeled or unlabeled phrase structure trees are useful for comparison of performances of different parsers, they do not give any useful clues as to how to improve the performance. In other words, there are no systematic ways of improving the performance of a parser, given text in an application domain to be analyzed.

In this thesis, we are interested in performance improvement of a deep parser based on a linguistic formalism called HPSG (Head Driven Phrase Structure Grammar). The parser produces predicate-argument structures (PAS) in the form of DAG (directed acyclic graph) as output, much more expressive than a simple tree which is produced by an ordinary shallow parser. PAS is more semantic oriented as representation and is proven to lead to improved performances in application systems. However, due to the inherent complexity of a deep grammar, performance improvement of a deep parser itself becomes more difficult and time consuming.

Both of the two approaches in this thesis use annotated corpora of given application domains. The first method is based on a statistical model which combines a newly learned model from a domain corpus with an existing model. The method is both efficient and effective. It is highly efficient in the sense that the time required for learning is 7.5 times less than the conventional methods. The second method is to systematize improvement of a parser by showing which part of a parsing model should be improved. It exploits an annotated domain corpus not only to categorize errors into linguistically meaningful types but also to capture their mutual relationships.

The effectiveness of our approaches is shown in parsing sentences in the biomedical domains.

審査要旨 要旨を表示する

本論文では、自然言語の構文解析器の性能を向上させるための二つの方策が提案されている。一つは構文解析器の既存の統計モデルを新規の対象分野に適応させる方策である。もう一つは構文解析のエラーを体系的に分析する方策であり、エラーの分析結果により構文解析器の改良に要する作業を軽減することを目標としている。二つの方策は互いに相補的な関係にあり、二つを組み合わせる試みについても報告されている。

本論文は5章から成り立っている。

第1章では、本研究の目的と概要および本論文の構成について述べられている。

第2章では本論文の背景知識について説明されている。特に、本研究で扱う構文解析器について解説されている。本研究で扱う構文解析器は、HPSG(主辞駆動句構造文法)呼ばれる言語形式に基づいた深い構文解析器である。深い構文解析器の出力は、浅い構文解析器が出力する単純な木よりも豊富な表現力を有しているが、深い文法が持つ複雑さのために、その性能の向上は困難かつ時間を要するものとなっている。

第3章において最初の方策が詳述されている。この方策は、既存の統計モデルをもとに、対象分野のコーパスを用いて統計モデルを再学習する手法から成り立っている。実際に、Penn Treebankから得られた統計モデルが、GENIA(生医学分野コーパス)およびBrown(文学分野コーパス)によって再学習され、本手法が効率的かつ効果的であることが実証されている。特に、学習にかかる時間が従来手法の7.5倍少なく済むという高い効率が示されている。

第4章では二番目の方策について解説されている。この方策は二つの手法から成り立っている、最初の手法は、アノテーションされた対象分野のコーパスを利用して、構文解析のエラーを言語的に意味のあるパターンに分類する。具体的に、40%以上のエラーを14パターンに分類できたことが報告されている。二つ目の手法は、エラーの間の依存関係を捉えるものである。特定のエラーを強制的に修正することにより別のエラーが消滅するとき、後者は前者に依存すると考えられる。このような依存関係を用いて、より本質的なエラーを同定することができる。二つの手法を組み合わせて、エラーのパターンの間の依存関係を求めることもできる。この章の最後では、第3章の再学習に際してエラーがどのように低減されるかが解析されており、本論文の二つの方策を組み合わせる試みが成されている。

第5章では、本論文の結論と将来の課題が述べられている。

以上をまとめると、本研究はHPSGに基づく深い構文解析器の性能を向上させるために、既存の統計モデルを新規の対象分野のコーパスを用いて再学習する方策と、エラーを分類するとともに相互の依存関係を求める方策を提案し、それらの有効性を実証している。よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク