学位論文要旨



No 117032
著者(漢字) 金澤,輝一
著者(英字)
著者(カナ) カナザワ,テルヒト
標題(和) 文書クラスタを用いた情報検索のモデルとその応用に関する研究
標題(洋)
報告番号 117032
報告番号 甲17032
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5173号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 安達,淳
 東京大学 教授 田中,英彦
 東京大学 教授 石塚,満
 東京大学 教授 中川,裕志
 東京大学 教授 坂井,修一
 東京大学 助教授 黒橋,禎夫
内容要旨 要旨を表示する

 コンピュータの能力向上とインターネットの普及によって情報の生産,流通,蓄積を低コストで大量に行うことが可能となった.一方,人間が情報を処理する能力は限られており,過多となった情報から選択的に入手し,あるいは蓄積した情報の中から素早く任意の内容を取り出すといった処理の重要性はますます増大している.しかし,検索処理における代表的な入力形態である自然言語には必ず意味的な曖昧性が存在し,検索の精度を低下させている.言葉の意味の定義は使用者ごと,あるいは状況によっても微妙に異なり,概念と表現を一対一に対応づけることはできない.言語間では文法も単語も全く異なるということも同種の問題である.問い合わせと検索対象の間で比較を行いたいのは述べられている概念だが,実際に比較できるのは表現である.表現の一致と概念の一致は必ずしも等価でないため検索精度は低下する.自然言語を問い合わせに用いる限り,これは避けられない問題であり,何らかの手法で対策を講じることが重要である.本研究では自然言語の意味曖昧性がもたらす検索精度低下の問題に対処すべく関連性の重ね合わせ(Relevance-based Superimposition)モデルを提案し,その特性の評価を行った.関連性の重ね合わせモデルの特徴は,検索対象の文書が持つ情報,特に文書関連性に着目した点である.従来,意味曖昧性への対処は問い合わせ表現に注目する手法が多かったが,問い合わせの限られた情報から的確に意図を汲み取るのは難しい.そこで本研究では検索対象の文書の持つ情報,特に文書関連性に着目して意味曖昧性への対処を図った.大規模テストセットを用いた評価実験では,従来手法である問い合わせ表現の自動拡張(automatic query expansion)と比較して,検索対象の文書の話題や言語といった条件に対してロバストな効果を示し,特に学術文献の検索に対しては最大9%の検索精度向上を達成した.また,問い合わせ表現の拡張と組み合わせた場合に相補的に効果を高めることも分かった.この場合,最大12%の精度向上効果を得られた.

図1 提案手法(RSモデル)の処理の流れ

表1 評価実験における検索精度の向上

手法の記号はbaselineがtf・idfのみによるもの,QEが従来手法である問い合わせの拡張,RSが提案手法である関連性め重ね合わせモデル,QE+RSが両者の併用を意味する.精度は平均適合率とbaselineからの向上率.

審査要旨 要旨を表示する

 本論文は「文書クラスタを用いた情報検索のモデルとその応用に関する研究」と題し、テキスト情報の検索の新しいモデルの提案とテストコレクションによる評価実験によりその有効性を論じたものであり、10章から構成されている。

 第1章は、「序論」であり、本研究の背景、問題の所在、研究の目的と論文の構成について述べている。

 第2章は「関連研究」と題し、本研究に関連した情報検索技術に付き、従来研究を概観しており、情報検索のモデルと特徴量抽出にういて説明した後、意味曖昧性を解消するためのQuery Expansion(QE)などの従来研究を紹介し、現在の課題である言語横断検索、クラスタリングなどの諸技術について解説している。

 第3章の「関連性の重ね合わせモデル」では、本研究で新しく提案する情報検索手法として「関連性の重ね合わせモデル」(Relevance-based Superimposition、RSモデル)を提案している。これはベクトル空間モデルの検索モデルに立脚し、検索対象の文書の持つ関連性に着目して検索性能を大幅に向上する手法を考案したものである。文書の集合を話題毎に非排他的な文書クラスタに分け、そのクラスタを代表するような特徴量の期待値を推定し、各々の文書の特徴ベクトルに文書の属するクラスタの特徴量を重ね合わせることにより、文書単体の特徴量を補正する。この結果、質問との間での類似性判定の性能が向上することが期待される。代表ベクトルの算定、重ね合わせのための手法、最適パラメータの推定について、テストコレクションに基づき定量的に評価して、実効的な式と値を求めている。

 第4章は「評価用検索システムの実装と評価指標」と題し、提案しているRSモデルの評価をするための環境条件について論じている。RSモデル評価用のシステムとして文献検索システムR2D2を実装し、その構成と機能について説明している。これはRSモデルをQEなどと比較できるようにするため、広範なパラメータ調整機能と多様な検索パターンの設定ができるようになっている。本論文で用いた様々な検索方法を実行するための機能について紹介している。また、検索評価に用いた日本語および英語のテストコレクションNTCIRおよびTRECの規模と内容について説明している。

 第5章は、「単一言語検索特性の評価」と題し、従来手法のtf・idfに比較して、RSモデルが、日本語テストコレクションでは6から9%の性能向上を実現できたことを示している。一方、英語のTRECでは3から4%程度の向上に止まり、文書クラスタ構成についての分析と検討を要するが、第8章にてこの問題を解消する方法について論じている。

 第6章は、「多言語検索特性の評価」と題し、言語横断検索にRSモデルを適用する際に、RSモデルによる検索性能への寄与が言語に依存するかどうか、また問い合わせの翻訳によって生じる意味曖昧性に対するRSモデルの耐性について、実証的に論じている。コーパスからの対訳辞書自動抽出による翻訳とEDRの日英対訳辞書を用いた問い合わせ翻訳による検索性能の違いをNTCIR-2テストコレクションにて実施した。その結果、RSモデルが言語に依存せず良好な性能を発揮すること、問い合わせ翻訳により意味曖昧性が増大した場合にも安定した性能を持っていることを示した。

 第7章は、「query expansionとの融合」と題し、RSモデルとQEとの間での特性の違いをテストコレクションの性格と比較しつつ論じている。RSモデルは同概念異表記の問題に対しして効果を持つこと、報道記事データのように概念記述の統制がなされている場合にはQEの性能が安定していることを実験的に調べた。

 第8章の「重要語の自動抽出を用いた文書関連性解析」では、あらかじめキーワードが付与されていないデータベースにRSモデルを適用する手法を提案し、良好な成果を得たことを述べている。頻度分析による重要語の抽出、これによるクラスタ構成、クラスタの特性向上のためのSVM(Support Vector Machine)を用いたクラスタ再構成手法の提案などを行った結果、7.6%の性能向上を達成できた。クラスタの様々な特性分析、重要語の自動抽出の一般的特徴を論じ、RSモデルが一般のデータベースに適用できる基盤を確立した。

 第9章は「考察」であり、本論文の全体を総括し、今後の展望を述べている。最後に、第1O章は「結論」として、本論文をまとめている。

 以上のように、本論文は、テキストデータベースを対象とした情報検索手法として、従来手法に比し有意な性能向上をもたらす「関連性の重ね合わせ(RS)モデル」を提案し、この検索特性と言語非依存性を日英のテストコレクションを使用して実証的に示しつつ、さらに一般のデータベースに適用するための文書クラスタ構成の一般的手法を確立した研究であり、電子情報工学に貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク