学位論文要旨



No 126197
著者(漢字) 松林,優一郎
著者(英字)
著者(カナ) マツバヤシ,ユウイチロウ
標題(和) 多様な意味役割の汎化指標を利用した自動意味役割付与
標題(洋) Automatic Semantic Role Labeling using Multiple Generalization Criteria of Semantic Roles
報告番号 126197
報告番号 甲26197
学位授与日 2010.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第264号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 高野,明彦
 東京大学 教授 萩谷,昌己
 東京大学 教授 石塚,満
 東京大学 准教授 須田,礼仁
 京都大学 教授 黒橋,禎夫
内容要旨 要旨を表示する

This thesis focuses on the problem of generalizing semantic roles in automatic Semantic Role Labeling (SRL), and increases the accuracy and robustness of SRL, proposing several new generalization criteria for FrameNet and PropBank corpora, and a classification model which enables us to combine these multiple criteria. The study also clarifies the characteristics of roles which can be captured by each criterion, through the comparative experiments of the criteria. In recent years, a number of studies have applied machine-learning approaches to SRL due to the availability of semantic corpora such as FrameNet and PropBank. However, these corpora define specific semantic roles for each semantic structure (or frame) of the predicates, and this causes severe problems for machine-learning approaches since the corpora contain a number of infrequent roles, which hinder efficient learning. Previous studies have addressed this problem by replacing frame-specific semantic roles with common labels among the frames and sharing the instances of the roles having common characteristics. However, this is a method which employs equivalence classes constructed from one linguistic perspective as classification labels, and there are two problems in the method.

First, computational linguistic resources having some linguistic theory as their basis assign to semantic roles the information which characterizes the roles from multiple aspects. In other words, this indicates that the characteristics of semantic roles are difficult to explain from only one perspective. Therefore, a model which predicts semantic roles by generalizing them from multiple viewpoints could improve the performance of role classification in the case of SRL. Secondly, it is also an important aspect to evaluate whether a computational model which employs the information from a linguistic theory can really contribute to SRL for real-world texts, for further improvement of linguistic theories and NLP technologies. However, previous studies could not strictly compare the different types of generalized labels since they redefined a SRL problem as a different task where a model directly predicts generalized labels when they generalize the semantic roles.

Therefore, in this thesis, we perform the following three. First, we construct a model which can achieve a simultaneous use of multiple types of generalized labels by using a log-linear model taking into account features of prediction labels. Secondly, we propose several new types of generalized labels derived from different generalization criteria both for FrameNet and PropBank, using characteristics of semantic roles annotated in the corpora based on some linguistic theory. The effectiveness of each criterion and incorporation of them into a model are also evaluated in the experiments. Thirdly, we clarify the characteristics of semantic roles which are captured by each criterion, based on comparative experiments and analyses.

Experimental results confirmed that combining multiple generalization criteria capturing syntactic/semantic properties of roles from different perspectives improves the performance of SRL. The combined model for each corpus achieved 19.16% error reduction in total accuracy and 7.42% in macro F1 average on FrameNet, and reduced 24.07% of errors in total accuracy and 26.39% of errors in the evaluation of unseen verbs on PropBank.

審査要旨 要旨を表示する

近年,FrameNet,PropBankといった意味役割付与コーパスの出現とともに,機械学習の枠組みを利用した自動意味役割付与システムが数多く研究されてきた.しかし,これらのコーパスは個々の意味構造(フレーム)に固有の意味役割を定義するため,コーパス中に低頻度,あるいは未出現の意味役割が数多く存在し,意味役割分類器の効率的な学習を妨げていた.既存研究では,フレーム固有の意味役割をフレーム間で共通なラベルに置き換えることで汎化し,共通性のある役割の実例を共有することでこの問題を解消してきた.しかし,これらの方法は,特定の言語学的観点から作られた意味役割の同値類を推定ラベルとして使うが,意味役割の性質は一つの観点からの汎化だけでは単純に説明出来ないという問題があった.また,役割の汎化は,汎化ラベルを直接推定する別のタスクとして再定義されるために,異なる汎化ラベル間の比較が厳密に行えないという問題もあった.

本論文は,この意味役割付与における意味役割の汎化問題について,複数の新たな汎化指標と,これらの指標を同時に利用する分類モデルを提案し,意味役割分類の精度と頑健性を改善している.また,汎化指標に対する詳細な比較実験を行い,それぞれの汎化指標が捉えることの出来る意味役割の性質を明らかにしている.本論文は「Automatic Semantic Role Labeling using Multiple Generalization Criteria of Semantic Roles(多様な意味役割の汎化指標を利用した自動意味役割付与)」と題され,6章からなり英文で書かれている.

本論文の貢献は,大きく次の三点である.第一は,従来の意味役割付与システムが用いてきた,推定ラベルの特徴を利用しないモデルの代わりに,推定ラベルに対する特徴を利用するより一般的なモデルを用いて,複数の汎化指標を同時に利用できる分類モデルを設計している.第二に,言語学的理論に基づいてコーパスに付加された意味役割の性質を利用して,FrameNet, PropBankにおいて,異なる汎化指標に基づく複数の新たな汎化ラベルを設計し,それらの個別の効果,および混合した場合の効果を検証している.第三に,タスク定義と役割の汎化問題を正しく切り分けることにより,汎化指標の厳密な比較・分析を実現し,それぞれの汎化指標が,意味役割分類において具体的にどのような役割の特徴を捉えているかを示している.

実験結果からは,異なる観点から意味役割の統語的・意味的特徴を捉える複数の汎化指標を混合したモデルが,意味役割分類の精度を向上させることが明らかになり,それぞれのコーパスでの混合モデルは,FrameNetにおいて全体の精度で19.16%のエラー削減,F1マクロ平均で7.42%の向上を,PropBankにおいて全体の精度で24.07%のエラー削減,未知動詞に対するテストで26.39%のエラー削減を達成した.

以上のように,本論文は意味役割付与における意味役割の汎化問題について,複数の新たな汎化指標と,これらの指標を同時に利用する分類モデルを提案し,意味役割分類の精度と頑健性を改善したことを実験により確認しており,コンピュータ科学上貢献するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク