学位論文要旨



No 125106
著者(漢字) 笹野,遼平
著者(英字) Sasano,Ryohei
著者(カナ) ササノ,リョウヘイ
標題(和) 自動獲得した世界知識に基づく日本語照応解析
標題(洋) Japanese Anaphora Resolution Based on Automatically Acquired World Knowledge
報告番号 125106
報告番号 甲25106
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第232号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 准教授 田浦,健次朗
 東京大学 教授 喜連川,優
 東京大学 教授 安達,淳
 東京大学 教授 辻井,潤一
 京都大学 教授 黒橋,禎夫
内容要旨 要旨を表示する

In natural language text, several concepts have tight relations with each other. However, due to the linear constraints of text, most of them are not obvious in the normal form of text; thus automatic recognition of such relations is considered to be an essential step in natural language understanding (NLU). Anaphora resolution, including coreference resolution, zero anaphora resolution and bridging reference resolution, is one of the important subtasks for automatic recognition of such relations.

In this thesis, we focus on Japanese texts. A typical NLU model for Japanese texts first segments input sentences into word sequences, assigns part-of-speech (POS) tags, recognizes named entities (NEs), and then recognizes syntactic structure and case structure. As a consequence of these analyses, relations that are expressed on the surface of text are recognized. In succession to these analyses, anaphora resolution,which resolves relations that are not expressed on the surface of text, are conducted.

The state-of-the-art morpho-syntactic analyzer and NE recognizer are considered to have achieved reasonable performance. However, to recognize more complicated relations, such as coreference relations,more accurate systems are desirable. For example, NEs play an important role in coreference resolution; thus more accurate NE recognition system is considered to benefit the performance of coreference resolution. Therefore, we first aim to improve NE recognition. In Chapter 2, we propose an NE recognition system that uses non-local information. While conventional Japanese NE recognition system has been often performed immediately after morphological analysis and rely only on local context, our system performs after structural analyses and uses four types of non-local information: cache features,coreference relations, syntactic features and case frame features, which are obtained from structural analyses. We evaluated our approach on CRL NE data and obtained a higher F-measure than existing approaches that do not use non-local information. We also conducted experiments on IREX NE data and an NE-annotated web corpus, and confirmed that non-local information improves the performance of NE recognition.

Since there are few grammatical clues for resolving anaphoric relations, world knowledge concerning such relations is necessary to resolve them. For example, synonym knowledge is essential for recognizing coreference relations between paraphrased mentions; case frames, which describe what kinds of cases each predicate has and what kinds of nouns can fill these case slots, are essential for zero anaphora resolution. There have been some studies that have tried to elaborate these knowledge by hand, but the problem is their coverage. That is to say, it is very difficult to make wide-coverage knowledge manually, because language is composed of an enormous number of content words. Moreover, there are technical terms or jargon for every domain, and new words are coined every day. In Chapter 3, we describe how to acquire world knowledge automatically. We first extract synonym knowledge, which is utilized for coreference resolution, from a large raw corpus and dictionary definition sentences. Secondly, we construct case frames from modifier-head examples in the resulting parses of large corpora. The problems for case frame construction are syntactic and semantic ambiguities. To cope with these problems, the case frames were gradually constructed from reliable modifier-head examples. Furthermore, in order to deal with data sparseness problem, we generalize the examples of case slots. Finally, we construct nominal case frames, which describes indispensable entities of nouns and utilized for bridging reference resolution.The point of the construction method is the integrated use of a dictionary and example phrases from large corpora.

Chapter 4 presents a knowledge-rich approach to Japanese coreference resolution. In Japanese, proper noun coreference and common noun coreference occupy a central position in coreference relations. To improve coreference resolution for such language, wide-coverage synonym knowledge is utilized. Furthermore,to boost the performance of coreference resolution, we integrate primitive bridging reference resolution system into coreference resolver. The experimental results show that using the acquired synonyms and bridging reference resolution boosted the performance of coreference resolution and the effectiveness of our integrated method is confirmed.

Chapter 5 presents a probabilistic model for Japanese zero anaphora resolution. First, this model conducts coreference resolution, recognizes discourse entities and links all mentions to them. Zero pronouns are then detected by case structure analysis based on automatically constructed case frames. Their appropriate antecedents are selected from the entities with high salience scores, based on the case frames and several preferences on the relation between a zero pronoun and an antecedent. Case structure and zero anaphora relation are simultaneously determined based on probabilistic evaluation metrics.

Chapter 6 reports the effect of corpus size on case frame acquisition for discourse analysis. For this study, case frames were constructed from corpora of six different sizes ranging from 1.6 million to 1.6 billion sentences. These case frames were then applied to syntactic and case structure analysis, and zero anaphora resolution. Better results were obtained by using case frames constructed from larger corpora;the performance was not saturated even with a corpus size of 1.6 billion sentences.

Chapter 7 provides concluding remarks, summaries the thesis, and outlines the areas for future work.

審査要旨 要旨を表示する

本論文は、「Japanese Anaphora Resolution Based on Automatically Acquired World Knowledge」(自動獲得した世界知識に基づく日本語照応解析)と題し、日本語テキスト中の照応現象の解析を目的とし、照応解析に必要な知識の自動獲得、および、自動獲得した知識を用いて照応現象を解析する手法を提案し、実験によりその有効性を論じたものであり、7章から構成されている。

第1章は「Introduction」(緒言)であり、計算機による言語理解における照応解析の重要性、その実現に向けての高精度な基礎的解析、および、種々の知識の必要性を述べ、自動獲得した世界知識に基づく統合的な照応解析モデルの概要を述べている。

第2章は「Knowledge Acquisition for Anaphora Resolution」(照応解析のための知識獲得)と題し、照応解析に必要となる様々な知識の獲得について述べている。まず、高度な共参照関係の認識に必要となる同義表現辞書の構築を目指し、テキスト中に出現した括弧表現、および、国語辞典から同義表現の獲得を行っている。続いて、用言の取り得る格要素、および、各格要素が取り得る表現の用例を記述した辞書である用言格フレームをWEB文書16億文のコーパスから構築している。さらに、用言格フレームのカバレッジの向上を目指し、コーパスから収集された用例の汎化を、名詞に付与されたカテゴリ情報、および、固有表現解析結果を用いて行う手法を提案している。最後に、名詞とその必須要素、および、その用例を記述した辞書である名詞格フレームをコーパスと辞書を用いて自動構築する手法を提案し、WEB文書16億文のコーパスから構築、さらに、用言格フレームと同様に用例の汎化を行っている。

第3章は「Named Entity Recognition Using Non-Local Information」(大域的情報を用いた固有表現認識)と題し、大域的情報を用いた固有表現認識モデルを提案している。固有表現に関する情報は照応解析において重要な手掛りになることから、高精度な固有表現認識システムは、照応解析に有益であると考えられる。従来、固有表現認識は構文解析などの構造的な解析の前に行われ、局所的な情報のみを手掛りとして解析が行われていたが、提案モデルでは構造的な解析を前処理として行うことにより、キャッシュ情報、共参照関係から得られる情報、構文構造から得られる情報、係り先用言の格フレームから得られる情報という4つの大域的情報を新たに用いて固有表現の認識を行っている。CRL固有表現データを用いた実験の結果、大域的情報を用いることで従来手法よりも高いF値を得ている。また、IREX固有表現データ、および、WEBコーパスに固有表現情報を付与したデータを用いた実験においても、大域的情報を用いることにより固有表現認識の精度の向上がみられた。

第4章は「Coreference Resolution Using Knowledge of Nominal Relations」(名詞関係辞書を用いた共参照解析)と題し、2章で獲得した同義表現辞書、および、名詞格フレームを用いた共参照解析システムを提案している。日本語における共参照は、普通名詞、または、固有名詞が照応詞となるものが多く、先行詞と照応詞が同一の文字列を含む場合が多い。このため、文字列マッチングに基づく手法で比較的高い精度が得られることが知られている。本研究では、文字列マッチングに基づく手法に、同義表現を用いたマッチング、名詞格フレームを用いた名詞句関係解析に基づく同一性判定を加えることにより、文字列マッチングに基づく共参照解析の改良を行っている。新聞記事、および、WEBコーパスを用いた実験の結果、同義表現辞書、および、名詞格フレームを用いることにより共参照解析の精度が向上することが確認できた。

第5章は「Probabilistic Model for Zero Anaphora and Bridging Reference Resolution」(省略・橋渡し指示解析の確率的モデル)と題し、2章で獲得した用言格フレーム、名詞格フレームを用いた省略・橋渡し指示解析の確率的モデルを提案している。提案モデルでは、まず、テキスト中に出現した談話要素の認識を行い、すべてのテキスト中の表現を認識された談話要素に関連付けている。その上で、格フレームを用いてゼロ代名詞の検出を行い、さらに、格フレームや表層格、出現位置に関する選好を確率的に評価し、談話要素の中から適切な先行詞を決定している。WEBコーパスを用いた実験の結果、従来手法と比べて十分な精度を達成しており、提案モデルが省略・橋渡し指示現象を適切にモデル化できていることが確認できた。

第6章は「The Effect of Corpus Size on Case Frame Construction for Discourse Analysis」(談話解析における格フレーム構築に用いるコーパスサイズの影響)と題し、談話解析における格フレーム構築に用いるコーパスサイズの影響の調査を行っている。この調査のために、160万文から16億文までの6種類の異なるサイズのコーパスから格フレームの構築を行い、構築された6つの格フレームを構文・格解析、省略解析に適用している。構文・格解析実験、省略解析実験の結果、より大規模なコーパスを用いることにより、これらの解析の精度が向上すること、および、さらに大規模なコーパスを用いることにより、さらなる精度の向上が望まれることを示している。

第7章「Conclusions」(結論)では、本論文の主たる成果をまとめるとともに、今後の方向性について述べている。

以上を要するに、本論文は、計算機による自然言語理解に向けて、照応解析に必要な知識の自動獲得、および、その知識を用いた照応現象の解析システムの構築を行い、実験によりその有効性を示したものであり、電子情報学上貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/28035