学位論文要旨



No 125090
著者(漢字) 小野,真吾
著者(英字)
著者(カナ) オノ,シンゴ
標題(和) Web上の文書における名前の持つ曖昧性解消に関する研究
標題(洋)
報告番号 125090
報告番号 甲25090
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第216号
研究科 情報理工学系研究科
専攻 数理情報学専攻
論文審査委員 主査: 東京大学 教授 中川,裕志
 東京大学 教授 杉原,厚吉
 東京大学 教授 安達,淳
 東京大学 准教授 胡,振江
 東京大学 講師 二宮,崇
内容要旨 要旨を表示する

Web上には多くの情報があり,近年では検索エンジンを用いることで,その情報を容易に得ることができる.しかし,たとえば人物を検索する場合を考えてみると,人名には同姓同名が存在するように曖昧性がある.そのため,人名をクエリとして検索エンジンに与えてWeb検索を行った際に,1つの名前についての検索結果が実際には異なる数人についての記述を集めてしまう場合がある.このような場合,検索を行うユーザは自分の探したい情報を検索結果の中から探す必要がある.また,この同姓同名の問題と似た構造を持つ問題として,"ACL"や"UT"などといった英数字からなる略称をクエリとした検索結果の曖昧性がある.これらを統一的な枠組みの問題として整理した.次に,我々はこの2種類の名前が持つ曖昧性について解消することを目的として研究を行った.

同姓同名の曖昧性解消の問題は,Webの拡大と検索エンジンの性能の向上により,この問題が広く知られるようになってきている.そのため,近年さかんに研究が行われており,2006年には初めてこの問題に対する評価型ワークショップ(Web People Search Task) が開催された.これにより,共通のデータセットも整備されつつある.一方,略称の問題に関しては,略称が出現する文書の中に出現する正式名称を推定する研究が従来から行われている.しかし,我々はこの問題が同姓同名の問題と類似の構造を持つ問題であり,同姓同名の問題の手法を適用できる可能性があると考えた.

我々はこれらの問題を,文書中に出現するクエリの文字列が参照する実体が同一である文書が同じクラスタに入るように文書クラスタリングを行う問題と考え,文書中の検索対象の人名に関連するソーシャルネットワーク情報についての類似度と,文書中の重要語情報を用いた類似度を用いたクラスタリングを行う手法を適用した.また,文書中の特定の情報にのみ注目してクラスタリング結果を再度クラスタリングする2段階クラスタリングを行う手法や,Web上から略称に関する知識を自動的に取得し,それを利用してWeb上の文書中の略称を分類する手法を提案した.さらに,同姓同名の曖昧性解消を行うシステムを実装し,実際にデモとして公開した.このシステムは,同姓同名の人物を正しく分離する高いクラスタリング性能と,実用的な動作速度の両方の達成を目的としている.

本論文の構成は以下のとおりである.まず,第1章においては,序論として本論文の目的と位置付けを述べ,本論文で取り扱う同姓同名の曖昧性解消の問題や略称の曖昧性解消の問題について,問題の構造や特徴を説明する.第2章では,本論文に関連する研究について紹介している.

第3章では,名前が持つ曖昧性解消を行うための方法論を説明する.文書中から特徴語を抽出し,その情報を元に類似度計算を行う方法や,我々が試みたいくつかの文書クラスタリングの手法,また,我々が新たに提案した2段階クラスタリングや略称に関する知識の獲得と,それを利用した分類手法について述べる.第4章においては,前章において紹介した各手法を適用するための実装や,実際に開発したシステムについて述べる.実装については,Web上の文書を取り扱うための前処理や,実際に作成したシステム,また略称の曖昧性解消を行うための略所に関する知識の獲得について説明する.

第5章,第6章では,我々が行った実験とその結果について説明する.同姓同名の問題については,我々が独自に作成した日本語データセットおよび共通データセットであるWePSデータセットを,略称の問題については略称に関するデータセットを作成し実験を行った.さらに,我々が開発した同姓同名の曖昧性解消を行うシステムについて,速度を最も重視した際のクラスタリング性能についても実験を行った.性能評価の結果,これらの手法を問題ごとに適切に組み合わせることにより,同姓同名の問題,略称の問題のいずれにおいてもF-measureで0.75程度の性能を達成することができた.また,システムについて行われたアンケート結果によると,クラスタリング性能と動作速度の両方について,十分に目的が達成できているという評価が得られた.最後に,第7章で本論文の結論を述べる.

審査要旨 要旨を表示する

Web 上には多くの情報があり、近年では検索エンジンを用いることで、その情報を容易に得ることができる。しかし、これにともなって検索エンジンの結果上位に現れない、いわゆるロングテール部分の情報を入手しにくい問題が顕在化している。例えば人物を検索する場合を考えてみると、人名には同姓同名が存在するように曖昧性がある。そのため、人名をクエリとして検索エンジンに与えてWeb 検索を行った際に、ある名前についての検索結果には異なる数人について混在してしまう場合がある。このような場合、検索を行うユーザは自分の探したい情報を検索結果の中から探すことは難しい。また、この同姓同名の問題と似た構造を持つ問題として、ACL やUT などといった英数字からなる略称をクエリとした検索結果の曖昧性がある。

本論文はこのような名前が持つ曖昧性について解消することを目的として学位申請者が行ってきた研究をまとめたものである。上記のように同姓同名の曖昧性解消の問題は、Web の拡大と検索エンジンの性能の向上により、この問題が広く知られるようになり研究が活発化した。この論文では、この問題をWeb 上の文書をクラスタリングする問題と捉え、文書中の検索対象の人名に関連する固有名の出現状態の類似度と、文書中に出現した重要語の類似度を用いたクラスタリングによって解決する手法を提案している。加えて、文書中の特定の情報にのみ注目してクラスタリング結果を再度クラスタリングする2 段階クラスタリングを行う手法を新規提案し、全体をまとめて名前の参照曖昧性解消システムとして実装し、実験評価を行った結果について述べている。

本論文は「Web 上の文書における名前の持つ曖昧性解消に関する研究」と題し、上記の名前の参照曖昧性の解消方法およびシステム設計における課題を解決する方法に関して論じたものであり、下記に示す7章からなる。

第1章 序論では、本研究の背景、問題の定義と位置づけを行っている。

第2章 関連研究では、本研究の関連研究をまとめている。

第3章 同名の曖昧性解消の方法論は、本論文の主要な理論を説明している。すなわち、提案する名前の曖昧性解消アルゴリズムにおいて、使用する固有名抽出、重要語抽出について説明し、次にそれらを用いたクラスタリング手法を述べている。クラスタリングにおいては機械学習アルゴリズムであるディリクレ過程ユニグラム混合によるトピック推定などの適用を提案している。次に一度クラスタリングされた結果に対して、クラスタ内の重要語によって再度クラスタリングする手法を提案し、性能向上を図っている。

第4章 実装では、3章に述べた方法をWebの検索エンジンから人名検索して得られた結果に適用し、数秒以内でクラスタリングを行う実装方法について述べている。

第5章 実験環境では、評価実験に用いるデータ、すなわち実際に収集した日本語のWebページ集合からなるテキストコーパスおよび国際的なコンペティッション型タスクであるWePS(Web People Search Task)の英語のWebページ集合からなる評価用テキストコーパスについて述べている。

第6章 実験結果では、5章で説明したデータを用いて、提案した手法の実験評価を行った結果について述べている。この結果、日本語のデータに関してはF-値で0.74、英語のWePS2006のデータでは、世界最高水準であるF-値で0.79を実現した。また、類似の構造を持つ略称の曖昧性解消についても実験し、F-値0.76という結果を得ている。

第7章結論は、本論文のまとめである。

以上を要するに、本論文は与えた名前で検索して得られたWebページの集合における、名前の参照曖昧性解消処理に関して、固有名、重要語を使う情報抽出、機械学習を用いたクラスタリング、1回目のクラスタリングを利用した再クラスタリングによって高い曖昧性解消能力を持つクラスタリング方法を提案した。また、提案したクラスタリング方法によるシステムの実装を行い、実装上の工夫によって高速な処理を実現した。また、実験評価によって高い性能を実証し、提案した手法の実用性を示した。これらの結果は情報理工学の発展に寄与するところが大きい。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク