学位論文要旨



No 122815
著者(漢字) 若木,裕美
著者(英字)
著者(カナ) ワカキ,ヒロミ
標題(和) 複数トピックの包括的提示による検索支援に関する研究
標題(洋) Query Refinement based on Comprehensive Representation of Multiple Topics
報告番号 122815
報告番号 甲22815
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第145号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 喜連川,優
 東京大学 教授 安達,淳
 東京大学 教授 石塚,満
 東京大学 教授 浅見,徹
 東京大学 教授 相田,仁
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

 本研究では,特定のトピックに強く関係する単語を抽出するための単語の重み付け手法として単語共起の統計に基づく定式化を提案する.すなわち,『特定の単語とのみ頻繁に共起する単語ほど個別のトピックを持ちやすい』という仮説を立て,その定式化を試みた.さらに,この手法によって抽出された単語を用いて単語クラスタリングを行う.その結果,検索結果の中に混在していた幾つかのトピックに分けて単語を質問者に提示することが可能となる.そして,質問者は求めるトピックを検索するのに有効な検索語を発見できると考える.本研究では,提案手法を用いた単語抽出および単語クラスタリングに関して様々な実験を行い,提案手法の有効性を確認している.

 現在の検索エンジンでは,ユーザによって入力された検索語に関連する文書の中で,より検索語と関係が深いと思われる文書が一次元的にランキングされる.ユーザ側もこの検索エンジンの特性に合わせて,既に必要とするものがはっきりと分かっているときにブックマーク的に使うことが多い.しかしWeb上には様々な内容の文書が存在し,検索結果としてトップページに表示される中には多様なトピックが混在している.このような背景をふまえ近年では,文書クラスタリング型の検索エンジンが幾つか登場している.例えばClustyではメタサーチを行って複数の検索エンジンの結果を文書クラスタリングして,各クラスタに名前を付ける.そして,文書クラスタとその名前をユーザに提示することにより,多くの検索結果を整理することを目的としている.

 このように従来の検索エンジンでは,検索語に関連する話題を幅広く調べにくいという問題がある.また,検索するのに適切な言葉が分らないときには,様々なページを閲覧してトピックが絞りこめるような単語をユーザ自身が発見して追加する必要がある.そこで本研究では,多様な内容を含む検索結果の中から,含まれる複数のトピックを分けるのに効果的な検索語を提示し,検索語の曖昧性を解消する手法を提案した.一般的に多義性解消で求められるのは辞書的な複数の意味に分けることである.しかし,検索語は1〜2語であることが多いため,その検索語が複数の概念や対象を示しうるために生じる多義性の問題がある.このような多義性の解消は,個々のトピックを分離することで解決できると考えている.一方,検索語の示すものが一意に決まる場合であっても,同一のものを異なる視点から見ることで異なった話題が考えられるという問題がある.これもまた,個々のトピックを分離することで解決できると考えられる.

 本研究では,頻繁に同じ文書に出現する一定の単語群がトピックの現れであると考え,ある単語が一定の単語群と頻繁に共起する場合,その単語は特定のトピックに強く関係しているとみなす.ここで,『特定の単語群とのみ頻繁に共起する』という単語の性質をTangibilityと呼ぶ.また,Tangibilityをもつ単語を選ぶための単語への重み付けとして,本研究ではTNGという定式化を提案した.そして,Tangibilityの高い単語,すなわち特定のトピックに強く関わる単語のみを抽出する.ただし,本研究では,ある単語ペアが何回であれ同一文書中に出現することを1回共起したと数えることにする.こうして特定のトピックに強く関係する単語を抽出することで,トピックを際立たせることが出来る.そして,抽出された単語を用いて,Distributional Clusteringアルゴリズムに基づく単語クラスタリングを行う.生成された単語クラスタによって,検索結果の中に混在していた複数のトピックを分けて質問者に提示することができ,質問者は自分が求めるトピックに対応する検索質問拡張(Query Expansion)用の単語を発見しやすくなる.さらに,提示された単語群の中に検索対象分野に詳しくない質問者にとって未知の単語を含む場合,質問者の学習支援も期待できる.

 提案手法では,複数のトピックが混在した文書集合の中で,トピックにのみ強く関わる単語が抽出できていることが期待される.しかし,各単語のトピックへの偏り具合を測る方法はなく,また各単語がいずれのトピックに関わりがあるかの正解は存在しない.そこで,文書分類の正解データを使って,各単語が強く関わりのある分類とその関連度を測る方法を提案した.この方法では,単語が関連するトピックとそのトピックへの関連度についての正解を与えることができる.また,被験者による単語へのラベル付け実験を通して,その妥当性を確認した.評価方法として妥当性があると確認できたため,このトピックへの関連度とそのトピックを推定する方法を用いて,抽出された単語の性能を評価することとした.本実験では,MI(相互情報量)やKLD(カルバックライプラー情報量)などの単語重み付け手法をTNGに対する比較対象とした.使用したデータセットはNTCIR3,NTCIR4,NTCIR-CLIR,Web上の産経スポーツニュースの記事,Dmoz,Reuters,Newsgroup20の7種類で,それぞれのデータセットについて実験を行った.その結果,TNGがもっとも各トピックに強く関係する単語を抽出することができていた.また,文書データに含まれる複数のトピックに関連のある単語が網羅的に抽出されていた.さらに,単語クラスタを生成した後においても,TNGがもっとも各トピックに強く関係し,また,網羅的な単語クラスタを生成していることが分った.

 次に,実験用のデータセットを用いるのではなく,実際の検索エンジンの検索結果の上位に対して提案手法を適用した実験も行った.TNGを用いたシステムの出力する単語クラスタに対する比較対象として,検索結果の整理を行うClustyの提示する単語セットを利用した.また,主観的評価実験を通じて各々のシステムの生成する単語クラスタを評価した.その結果,提案手法を用いたシステムでは,Clustyと同程度に検索語自身の多義性の発見に役立つことが分った.また,Clustyに比べて個別具体的な単語を提示するため,提案手法によるシステムの出力した単語クラスタを用いることで検索語に関連する新しい話題の発見につながることを評価実験から明らかにした.さらに,Clustyに比べて積極的に単語クラスタを生成するため,Clustyでは複合語や言い換えになるような単語が多く提示されるのに対し,提案手法によるシステムでは複数の異なる見方を表す単語セットが提示されやすいことが分った.

審査要旨 要旨を表示する

 本論文は、「Query Refinement based on Comprehensive Representation of Multiple Topics(複数トピックの包括的提示による検索支援に関する研究)」と題し、英文6章から構成されている。WWW文書などに対するキーワード検索の結果が含む様々なトピックを整理・提示し、さらに検索質問の改善に結びつけることを目的とした研究である。『トピック』について定義を行い、そのようなトピックを形成しやすい単語の抽出方法を提案している。また、提案手法の有効性を多様な種類の文書コレクションを用いて検証し、さらに、提案手法のデモシステムを作成して実験的な環境ではなく実際の検索結果のデータと現実的な検索語を用いた実験を行っている。これにより、提案手法の特性を既存の他システムとの比較を通じて検証したものである。

 第1章は、「Introduction」であり、本研究の背景および既存のキーワード型検索エンジンの問題点について指摘している。さらに、本研究の意義について述べると共に、本研究の提案するアイディアを簡単に紹介している。最後に、本論文の構成をまとめている。

 第2章は、「Related Work」であり、本研究と関連する研究について「Overview」において広くまとめている。特に、検索結果の内容を整理することに注目した研究の流れと、特徴的な単語の抽出を目的とした研究の2つに大別してまとめている。「Overview」の後には、それぞれの内容に関して、特徴的な研究について細かく調査している。

 第3章は、「Tangibility:A New Measure for Topical Term Extraction」と題し、本論文で提案する単語重み付けの方法について説明を行っている。Tangibilityとは本論文で提案する単語重み付け手法のコンセプトであり、『特定の単語とのみ頻繁に共起する単語はトピックを形成しやすい』というものである。Tangibilityの定式化として、まずTNG1・TNG2を予備実験的に提案している。これはTangibilityの有効性を確認するためのものであり、次の第4章の最初の実験でその有効性が確認される。さらに、Tangibilityのコンセプトを追求し最終的な定式化としてTNGを提案している。また、TNGによって抽出された単語のクラスタリングの手法についても述べている。

 第4章は、「Experiment for Tangibility」と題し、本論文で提案するTangibilityの定式化に関する実験を包括的に行ったものである。まず、TNG1・TNG2について他の単語重み付け手法との比較実験を行っている。実験データはNTCIR3の検索課題である。また、その後はTNGについて実験を詳細に行っている。他の単語の重み付け手法と比較しながら、抽出された単語がトピックに偏った出現をする単語であるかどうか、また、検索に有効であるかどうかについて実験を行っている。特に、トピックへの偏りについては被験者による人手の判断も行っている。実験データは全7種類で、検索用文書コレクション・文書分類用コレクションの両方を利用し、言語も日本語と英語の両方を用いている。

 第5章は、「Representation System of Multiple Topics with Search Results:Application of Tangibility」と題し、本論文で提案したTNGを用いたシステムを作成している。システムが検索結果として使用するデータは、Googleの検索結果のURL一覧から文書を収集し使用している。検索語としては、実際によく使われた検索語や多義性の問題のある検索語を用いている。比較実験では、検索結果をクラスタリングする公開システムClustyを比較対象としている。また、提案手法で生成した単語クラスタを被験者に実際に検索に使ってもらい、その有効性や特性について議論している。さらに、検索語の曖昧性の問題について考察・議論を詳細に行っている。

 第6章は、「Conclusion」と題し、本論文の全体を簡潔にまとめると共に、第1章で議論した本研究の意義に対し本研究が解決した点に言及している。

 以上これを要するに、本論文は、爆発的に増大するWWW文書等の情報からの検索に関して、少ない単語で曖昧に表現された質問による検索結果に含まれる多様なトピックを抽出し、そのトピックを表現するのに適切な語の集合を求め、多義性やファセットなどに基づいて分類表示するために有用な統計的な手法を提案し、それを大規模なコーパスにより定量的に評価しまた他システムとの比較を行うことにより、提案手法の有用性を実証したもので、情報検索やテキストマイニングにとって有用な知見が得られており、電子情報学上貢献するところが少なくない。

 よって、本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/25881