
No 124189
著者(漢字) 楊,潔
著者(カナ) ヤン,ジェー
標題(和) Webテキストへの集団による意味的アノテーション : トリプル・タギングとトリプル抽出
標題(洋) Collective Semantic Annotation for Web Text : Triple Tagging and Triple Extraction
報告番号 124189
報告番号 甲24189
学位授与日 2008.09.30
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第208号
研究科 情報理工学系研究科
専攻 創造情報学専攻
論文審査委員 主査: 東京大学 教授 石川,正俊
 東京大学 教授 竹内,郁雄
 東京大学 教授 武市,正人
 東京大学 教授 江崎,浩
 東京大学 教授 石塚,満
 東京大学 准教授 田中,久美子
内容要旨 要旨を表示する

Semantic annotations are machine-understandable metadata attached to web resources. Semantic annotations represent information contained in text documents in a structured format which are more amenable to applications in data mining, question answering, or the Semantic Web. Considerable research has been done in the reign of semantic annotation. If we check the sources of the semantics of semantic annotations, existing studies can be classified in two categories: the "ontology-centric" class which depends on the "a-prior" vocabularies (generally known as ontologies) to annotate web text; and the recent "user-centric" class which avoids pre-defined vocabularies and allows normal web users to annotate web text with less or no constraints.

This research on "collective semantic annotation" is a user-centric annotation approach. The goal of the work is to explore how we can generate semantic annotations for web text by exploiting the strengths of both normal web users and computers. Specifically, two questions are addressed. Firstly, what user-centric support can be provided to encourage normal web users annotating web text? Secondly, how to automate the annotation process?

As the result of the first question, a user-centric annotation diagram, triple tagging diagram, is proposed. I identify eight dimensions which help us to describe annotation frameworks. Literature work is investigated in terms of the eight dimensions. The features and novelties of the triple tagging diagram are addressed. The diagram consists of three parts: the concept model which defines annotation primitives, the collaboration model which addresses the information collection and navigation possibilities, and the ontology model which provides a common definition for triple annotations so that they can be exchanged, re-used, and extended on the Web. A model evaluation is carried out, which includes both qualitative and quantitative analysis. The evaluation exhibits the expressive power and advantages of the triple tagging diagram over existing work.

Regarding the second question, I propose an interactive approach which generates semantic annotations for web text automatically. In this approach, the annotation generation problem is defined as a binary relation extraction problem. Linguistics and machine learning techniques are exploited to solve the problem. Specifically, we propose the algorithm of penalty tree similarity. The algorithm is an extension of tree kernels which are widely used in the field of Information Extraction. A triple tagging corpus is created and used in experiments. The result shows that the extended tree similarity algorithm achieves better performance.

As a result of this research, a triple tagging system, Triple-Note, is implemented. It is implemented in a web-server architecture. On the client side an extension of Firefox browser is implemented to support users' annotating actions. On the server side, automatic extraction, annotation storage, and other servicing models are implemented.

審査要旨 要旨を表示する

本論文は「Collective Semantic Annotation for Web Text: Triple Tagging and Triple Extraction(Webテキストへの集団による意味的アノテーション:トリプルタギングとトリプル抽出)と題し,英文で記されており9章から成る.





第2章は「Review of Annotation System(アノテーションシステム概説)」である.アノテーションシステムを特徴付ける8次元の軸(標準データフォーマット,アノテーションの蓄積形式,アノテーションの粒度,アノテーションのプリミティブ,アノテーション語彙のソース,ユーザ中心のデザイン法,アノテーションの消費者,アノテーションによるサービス)について述べ,これに基づいて既存の各種システムの位置付けを明らかにしている.また,オントロジーに基づくアプローチ,社会集団的アプローチ,両者の橋渡し的アプローチに大別し,それぞれの代表的システムについて説明している.そして,本論文のシステムの位置付けは社会集団的アプローチに立脚するが,アノテーションのプリミティブとしてトリプルタグを用いることで拡張を図ったものであると述べている.

第3章「Triple Tagging Model(トリプルタギング・モデル)」では,本論文で提案するアノテーションシステムは典型的には(主語,述語,目的語)をとるトリプルをプリミティブ・データに用いるものであるが,システムを構成する上で必要となる他の要素も含めた基礎となるモデルについて述べている.トリプルは標準化されているRDF(Resource Description Format)に従って記述,管理される.また,トリプルタグを作成したユーザ名,作成日時も記録され,管理されるトリプルタグの集合から相互に関連付けられたタグ・グラフが構成され,グラフ照合による検索,及び情報の視覚化やナビゲーションに用いられる.そして,トリプルタグを記述するガイドラインを示している.

第4章「Model Evaluation(モデルの評価)」では,提案のトリプルタギングを第2章に記した8次元の軸の観点から評価するために,ユーザからのデータの収集と分析を行うケーススタディを行い,既存のアノテーションシステムに対する利点を示している.

第5章は「Sentence-Based Triple Extraction(センテンスに基づくトリプル抽出)」であり,ユーザのトリプル作成を促進する自然言語処理に基づくトリプルの自動抽出法について検討している.これは文章からの2項関係抽出であり,まず最初に関連研究についてまとめており,特に本研究に利用する核技術としてのトリー・カーネル関数によるセンテンス・トリー類似度に焦点を当ててまとめている.そして,本研究のトリプル自動抽出のための,依存解析の基づくセンテンストリーの類似度計算を各ノードの重要性を考慮して精度を高める,ペナルティ付きトリー類似度を導入している.

第6章「An Interactive Approach for Triple Extraction(トリプル抽出のための対話的アプローチ)」では,ユーザが内容を表す上で重要と考え選択したセンテンスからトリプルタグを自動抽出するに際し,これまでにトリプルタグ化されているセンテンスとのセンテンス類似度計算に基づくkNN(k Nearest Neighbor, k最近傍)法により抽出すべきトリプル候補を見出し,有効であるとして抽出するトリプルを決定する方法を示している.具体的には以下の手順を採っている.入力センテンス(英文)を依存解析して依存木(トリー)を作成する.依存関係にある主語と目的語の候補ペア語を見出し,このペア語に関する最小木を作成し,これを第5章に記したペナルティ付きトリー類似度によって既存トリプルタグ・データと比較してk最近傍データを求め,類似度の数値によりフィルタリングして抽出するトリプルを決定する.この処理過程では,WordNet(英単語の上位下位関係等を規定した辞書)に基づく単語間の類似度,形態素解析結果,名辞エンティティ分類結果の情報も利用している.


第8章「Implementation System: Triple-Note(実装システム:Triple-Note)」では,グラフィカル・ユーザインタフェースも含めて実装したトリプルタギングシステム:Triple-Noteについて記している.Webページの内容をよく表しているセンテンスを選択すると,第5,6章の方法に基づいて有効と考えられるトリプルタグが自動抽出され,ユーザはこの中から適当と考えるトリプルタグを選択し,登録する形式をとる.トリプルタグ・グラフの表示は関係する項目の一覧を可能にしている.トリプルタグの1項目あるいは2項目を*にすることにより,この*にマッチするトリプルタグ及びそれに付随するWebページを検索する機能も与えている.

第9章「Conclusions and Future Research Directions(結論と今後の研究方向)」では,本論文の成果をまとめると共に,今後の研究方向に言及している.


UTokyo Repositoryリンク