学位論文要旨



No 127305
著者(漢字) エルノー,ユーゴ
著者(英字)
著者(カナ) エルノー,ユーゴ
標題(和) 談話解析への半教師付き学習アプローチ
標題(洋) A Study on Semi-Supervised Approaches for Discourse Analysis
報告番号 127305
報告番号 甲27305
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第343号
研究科 情報理工学系研究科
専攻 創造情報学専攻
論文審査委員 主査: 東京大学 教授 稲葉,雅幸
 東京大学 教授 石川,正俊
 国立情報学研究所 教授 本位田,真一
 東京大学 准教授 稲葉,真理
 東京大学 准教授 田中,久美子
 東京大学 教授 石塚,満
内容要旨 要旨を表示する

The understanding of discourse structure has several important applications in Natural Language Processing. In particular, it facilitates the automatic creation of text summaries, enables dialogue generation, and supports question-answering. However, the development of automatic discourse analysis systems is facing several challenges. First, natural language texts must be accurately segmented into elementary text units. Second, a data structure should be built, representing the way all the units of a text are organized. Finally, and most important, discourse relations indicating in what manner pairs of units of the text are related, have to be determined. This thesis addresses the problems of (1) segmenting a text efficiently into units, (2) developing a full-fledged discourse analyzer able to produce tree discourse structures, and (3) creating semi-supervised discourse relation classifiers, which is an important perspective for creating discourse analyzers working on domains with a lack of annotated training data.

In the first section of the thesis, we introduce a sequential discourse segmentation method based on Conditional Random Fields. Segmenting a text into elementary discourse units is the first step of all discourse analyzers. Because improper segmentation jeopardizes the rest of the discourse analysis process, this task is of paramount importance. We employ Conditional Random Fields to train a discourse segmenter on the RST Discourse Treebank, one of the major annotated discourse corpora, using a set of lexical and syntactic features. The proposed method is compared to other statistical and rule-based segmenters, including one based on Support Vector Machines. Experimental results indicate that the proposed sequential model outperforms current state-of-the-art discourse segmenters, with an F-score of 0.94. This performance level is close to the human agreement F-score of 0.98.

In the second section of the thesis, we present an implemented discourse analyzer based on Support Vector Machine classification. Previous supervised approaches were aimed at producing sentence level analysis or at describing partially-implemented systems. By contrast, our system targets discourse structure at text level. Specifically, we created a fully-implemented, extensively-evaluated system.

In the next sections of the thesis, we focus more particularly on semi-supervised methods for performing discourse relation classification, which is the core task of a discourse analyzer. For this task, most researchers have employed fully-supervised machine learning methods. In these approaches, a large annotated discourse corpus is employed, and used as a basis to train a discourse relation classifier able to recognize which discourse relation holds between two units of text given as input. However, only three annotated discourse corpora are available for training discourse relation classifiers. Since different applications and domains might require employing a custom set of discourse relations, it becomes necessary to create each time a new training corpus, which is costly and time-consuming. To tackle this issue, we propose to employ semi-supervised machine learning methods, whereby a small amount of labeled training data is combined with a large amount of freely-available, low-cost unlabeled training data, in order to train a classifier with increased performance.

In particular, in the third section of the thesis, we introduce a semi-supervised discourse relation classification method based on the analysis of co-occurring features in unlabeled data. This information is then taken into account for extending the feature vectors given to a classifier. Our experimental results on the RST Discourse Treebank corpus and Penn Discourse Treebank indicate that the proposed method brings a significant improvement in classification accuracy and macro-average F-score when small training datasets are used. For instance, with training sets of ca. 1000 labeled instances, the proposed method brings improvements in accuracy and macro-average F-score up to 50% compared to a baseline classifier. We believe that the proposed method is a first step towards improving classification performance for small datasets, with potentially infrequent discourse relations, which is useful for domains with a lack of annotated data.

In the fourth section of the thesis, we present a different semi-supervised approach to discourse relation classification, based on learning from multiple auxiliary problems (Structural Learning). First, we solve a set of auxiliary classification problems using unlabeled data. Second, the learned classifiers are used to extend feature vectors and train a discourse relation classifier. We show that, when using the same feature set and unlabeled data set as in the co-occurrence-based method introduced in the third section, Structural Learning-based discourse relation classification reaches similar performance levels. Compared to the co-occurrence-based discourse relation classification method, the Structural Learning-based method has the advantage of requiring few additional features, typically ca. 50, while the co-occurrence-based method requires extensive dimension increase of ca. 15000. This is another positive prospect for training discourse relation classifiers on domains where little labeled training data is available, thus potentially enabling novel applications.

Finally, in the last section of the thesis, we conclude our study, summarize its main points, and discuss future work and potential research directions.

審査要旨 要旨を表示する

本論文は「A Study on Semi-Supervised Approaches for Discourse Analysis(談話解析への半教師付き学習アプローチ)」と題し,英文で記されており,6章から成る.

第1章「Introduction(序論)」では,自然言語テキストの談話解析の役割とこれまでに提唱されてきた理論とモデルについて記し,既存研究をまとめている.そして本論文の貢献は,(1)テキストの効率的な談話ユニットへの分割法,(2)木構造の談話関係構造を生成する教師付き学習による談話解析器の開発,(3)十分な談話関係ラベル付き訓練用データが存在しない状況下で,談話解析器を構成するために重要となる大量の談話関係ラベル付与なしデータも活用する半教師付き学習法(semi-supervised learning),であるとしている.

第2章「A Sequential Model for Discourse Segmentation(談話分割のための逐次処理モデル)」では,条件付き確率場(CRF: Conditional Random Field)に基づく基本談話ユニットへの逐次分割法を記している.このテキストの基本談話ユニットへの分割は談話分析の最初のステップとして重要である.本研究では談話分割器をRST(Rhetorical Structure Theory)談話Treebankのデータを用いてCRFによる訓練によって得ている.この提案手法による談話分割器は,実験によりSVM(Support Vector Machine)等を用いる統計的手法やルールベース手法と比較して,優れていることを示している.提案手法による実験結果ではF値が0.94程が達成されるが,これは人間による判定のF値の0.98に近くなっている.

第3章は「An Implemented Discourse Parser Based on Support Vector Machine(SVMにより実装された談話構造解析器)」であり,RSTに基づく木構造となる談話構造解析器の開発について記している.以前の教師付き学習による談話構造解析が単文レベルの解析か部分的に実装されたシステムであったのに対し,本論文の談話構造解析は複数文を含む文全体を解析する完全に実装されたシステムとなっており,性能も既存のものを上回ることを実験的に示している.

第4章「Co-occurrence-based Discourse Relation Classification(共起に基づく談話関係識別)」では,談話構造解析器の中核となる談話関係識別を行うための半教師付き学習法を記している.既存の多くの談話関係識別器の設計は,談話関係レベル付きコーパスを用いる教師付き学習に基づいてきたが,このような多量のコーパスは必ずしも存在するとは限らず,特に新たに設定された談話関係については利用できない.そこで,ここでは少数の談話関係ラベル付きテキストデータと多数の談話関係ラベル付与のないテキストデータを活用する半教師付き学習法を提案している.本章で考案している半教師付き学習法は,ラベルなしデータ中の特徴の共起情報を活用するものであり,この特徴の共起情報を利用して関係識別で用いる特徴ベクトルを拡大する.これにより,ラベル付きデータだけでは得られない特徴量も利用できることになり,性能の向上に繋がる.RST談話TreebankコーパスとPenn談話Treebank コーパスを用いた実験により,提案の半教師付き学習による談話関係識別器は識別性能向上をもたらすことを示している.例えば,約1000のラベル付きデータを用いる場合,提案の半教師付き学習による談話関係識別器はベースライン識別器に対して,マクロ平均F値で50%程の識別性能向上をもたらすことを示している.これは出現が低頻度であるために,少数のラベル付きデータしか得られていない談話関係に対する場合などで特に有効となる.

第5章「Structural Learning-based Discourse Relation Classification(構造学習ベースの談話関係識別)」では,中心認識課題の部分問題である多数の補助問題に対する学習結果を利用する半教師付き学習手法(構造学習と呼ばれる)を,談話関係識別に適用するアプローチを記している.ここでは初めに,ラベルなしデータに対して多数の補助的識別問題を解き,次いでこれによって学習した多数の補助的識別器を特徴ベクトルの拡大に用い,談話関係識別器の訓練に使用する.前章と同じ特徴集合とラベルなしデータを用いた場合においては,補助的識別器の数は13,000~15,500程になっている.前章の共起に基づく手法では約15,000もの特徴が追加されるのと比較すると,構造学習ベースと呼ぶ本章の手法は性能向上のためには補助的識別器学習のためにより多くのラベルなしデータを必要とするが,数学的処理により最終的に追加となる特徴量の数は50程の少数になる.実験により,二つの半教師付き学習による談話関係識別の性能はほぼ同等になることを示しており,両者とも少数のラベル付きデータしか存在しない場合に,ラベルなしデータの利用により大きい性能向上が得られることを示している.

第6章「Conclusion and Future Work(結論と今後の研究)」では,本論文の研究成果をまとめ,今後の研究の方向と課題に言及している.

以上を要するに,本論文は自然言語テキストの談話関係解析において,CRF(Conditional Random Field)に基づく効率的な談話ユニットへの分割法,RST(Rhetorical Structure Theory)に基づく木構造の談話関係構造を生成する教師付き学習による談話解析法,十分な談話関係ラベル付きデータが存在しない状況下で談話関係識別器を構成するための大量の談話関係ラベルなしデータも活用する2種の半教師付き学習法 ― 特徴の共起を利用し特徴ベクトルを拡張する独自手法と多数の補助問題に対する学習結果を利用する構造学習法をベースとする手法 ―を考案,開発し,性能向上効果を実験的に示している.これは自然言語テキスト談話解析において,特に半教師付き学習を適用した先駆的な貢献と認められ,情報理工学における創造的実践の観点で価値が認められる.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク