学位論文要旨



No 117088
著者(漢字) 尾暮,拓也
著者(英字)
著者(カナ) オグレ,タクヤ
標題(和) オントロジーを利用した文書検索手法の研究
標題(洋)
報告番号 117088
報告番号 甲17088
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5229号
研究科 工学系研究科
専攻 システム量子工学専攻
論文審査委員 主査: 東京大学 教授 近藤,駿介
 東京大学 教授 岩田,修一
 東京大学 教授 古田,一雄
 東京大学 教授 大和,裕幸
 東京大学 助教授 出町,和之
 東京大学 助教授 中田,圭一
内容要旨 要旨を表示する

 たとえば図書館で何らかの事柄に関する文献を検索する必要があるとき、かつ、その事柄を概念的にしか説明できないとき、既存のキーワード検索などでは必ずしも望ましい結果が得られない一方、多くの場合図書館員や専門家に相談することによって容易に参照すべき文献に辿り着くことができる。ここで「事柄を概念的にしか説明できない」とは、知りたい内容を直接指す言語的ラベルを知らず、関連すると思われる単語を述べることしかできないという意味である。図書館員や専門家がこのような質問に答えることができるのは、質問された領域に関する概念体系を持っているためと考えられる。

 領域依存の概念体系を扱う上では、明示的な領域の定義を持つオントロジーと呼ばれる知識体系を利用することができる。オントロジーという語はもともと哲学用語で「存在論」を意味するが、工学的に用いる場合は一般的には問題解決のために考慮する対象物とそれらの関係を明示的に記述したデータベースである。理想的にはオントロジーは対象とする問題領域の網羅性と、概念体系を記述したものとして人々の合意が得られていることが期待できなければならないとされる。そこで本研究では専門的な文書など対象領域が明確な検索タスクにおいてオントロジーを積極的に利用する検索モデルとしてオントロジーベクトルモデルを提案し、このモデルの性能と特性を実験で検証する。

 情報検索の分野ではさまざまな手法が提案されている。ここでベクトルモデルと呼ばれる検索モデルについて紹介する。この手法は検索に使用する索引語があらかじめ用意されている場合に用いる。検索質問は索引語の任意の単語を重み付けして与える。このとき検索質問ベクトルqは次の式で与えられる。

 文書kに対応する文書ベクトルdkは次の式で与えられる。

dki=fk(termi)

 ここでfk(termi)は文書kの中でtermiが出現する頻度である。文書が検索質問にどの程度適合しているかは両ベクトルの内積で定義される類似度Simkによって判断する。類似度が高いほど検索質問に適合していると考える。

 本研究ではベクトルモデルのベクトル要素を単語から概念に拡張した「オントロジーベクトルモデル」と呼ぶ情報検索モデルを提案する。オントロジーベクトルモデルの概要は次の通りである。

1.文書集合が対象とする領域のオントロジーOdomain={concepth}を用意する。

2.全ての索引語termiについて、オントロジーベクトルVtermiを定義する。

Vtermih=r(termi,concepth)

 ここでr(termi,concepth)はtermiのconcepthへの関連の強さである。

3.ベクトルモデルと同様に定義された検索質問ベクトルqおよび文書ベクトルdkをオントロジーベクトルQ、Dkに変換する。ここでMは単語空間から概念空間への写像行列である。

4.文書が検索質問にどの程度適合しているかは両オントロジーベクトルの余弦で定義される類似度Simkによって定義する。

 ここで重要なのは2.のtermiのconcepthへの関連の強さの値r(termi,concepth)を決める過程であり、このモデルでは「活性伝播」と呼ばれる手法を用いる。活性伝播とは人間の意味記憶における「連想」をモデル化したものであり、索引語termiに直接関係する概念を人間が選択することにより、その概念の近傍の概念conceptuとその索引語termiとの関連の強さr(termi,conceptu)が自動的に決定される。活性伝播ルールは一般に活性が減衰していくように設計するが、ルールは任意であり、最適化は今後の課題である。

 本研究の実験には典型的な情報検索の評価方法であるテストコレクションを用いた評価を行う。テストコレクションとは次の3つのデータのセットである。

・ 試験用の文書群.

・ 複数の検索質問.

・ 検索質問にそれぞれの文書が適合しているかどうかを評価した正解集合.

 NTCIR[8]は国立情報学研究所が1997年から継続しているテストコレクション構築プロジェクトで、提供されている日本語テストコレクションは日本では標準的な存在である。このテストコレクションには同研究所が提供している「学会発表データベース」のアブストラクトの部分を試験用の文書として約34万文書を収録している。検索質問は83検索質問文が用意され、これらにとそれぞれの文書との適合性が人間によって判断され、正解集合として用意されている。

 本研究で提案するモデルはオントロジーを用いるが、オントロジーは一般に領域を限定して構築されるので、対象とする特定領域として人工知能分野を選び、34万文書のうち「人工知能学会」から提供された2,013文書を実験用に選んだ。この中に正解文書が5件以上ある検索質問は10件であり、実験にはこれらを用いた。正解文書の平均数は12.5文書である。

 人工知能分野のオントロジーとしては、人工知能学会への論文投稿時に指定する階層化された分野分類を当研究室のメンバーに公開して修正の意見を集め、オントロジーとして合意を得たものを使った。最終的な概念数は133であった。

 索引語は実験に使用する10検索質問に含まれる内容語(名詞、動詞、形容詞)のうち、一般的過ぎる単語(「文献」、「記述」など)を除く21単語と、人工知能の教科書的な書籍の索引にある単語約2千語のうち、一般的過ぎる単語を除いた1,051語を選んだ。これら合計1,072索引語に関して、対応する概念を先の133の概念からなるオントロジーに加え、活性伝播によりオントロジーベクトルを作成した。

 今回の実験では単語に関係のあると思われた概念concept1にr(termi,concept1)=1を設定し、活性伝播ルールとして、以下の式を適用した。

r(termi,concepth)=ar(termi,concepth-1)

ここでaは活性伝播率と呼ぶことにする。

 このルールにより、同じ概念を指す単語同士、上位概念が同じ単語同士、上位概念も違う単語同士のオントロジーベクトルの内積をそれぞれP1,P2,P3とすると

P1>P2>P3=0

の関係が成り立ち、概念の階層構造を反映する。検索質問は検索質問文に出現した索引語を出現頻度で重み付けしたものを用いた。

 これらのデータを用いてaを0.0から1.0まで推移させてパラメーターサーベイを行った。ここでa=0.0のときは既存の単語のベクトルモデルにとほぼ同等であり、従って本研究で提案するオントロジーベクトルモデルとの性能の比較ができる。

 情報検索の評価は精度(precision)と再現率(recall)を元に行われるのが通例である。それぞれの定義は以下の通りである。

 計算結果をSimk順に並べ、上位からn番目の文書までを検索結果とした場合の精度Precision(n)と再現率Recall(n)を各検索質問に関して平均した。それぞれ図1、図2に示す。また再現率が0.0から1.0までの11点での精度の平均値「11点平均精度」を図3に示す。

 Simkが0より大きい有効な検索結果は、オントロジーベクトルモデルを用いたときで全ての検索質問に対して2031文書中1987文書であった。単語のベクトルモデルでは最大325、最小0、平均58.1文書であった。

 図1、図2と図3から、既存のモデルに比べて性能が大きく向上していることが分かる。また検索された文書数も多い。特に再現率に関しては2倍以上の性能となり、図3の11点平均精度のグラフからは精度が1.5倍ほどに向上していることが分かる。また活性伝播率「a」の推移に伴って11点平均精度は変化し、a=0.6付近でピークが出ている。この変化はオントロジーの構造が検索性能に寄与している証拠である。また133+1,072概念のオントロジーと1,072語の索引語は人工知能分野の広さに対してカバーする範囲が狭く、この変化が小さいのは、オントロジーの概念数が少ないためと考えられる。

 以上から、提案するモデルの性能とオントロジーに依存する特性を検証することができた。

図1 各活性伝播率における精度の平均

図2 各活性伝播率における再現率の平均

図3 各活性伝播率における11点平均精度

審査要旨 要旨を表示する

 本論文は専門的な分野における電子化文書を専門的な知識を利用して検索する手法についてオントロジー工学を利用し、また検索アルゴリズムとしてベクトルモデルを概念レベルに拡張したモデルを用いる手法の性能と特性を検証しているものである。

 第1章は序論で、キーワード検索システムを利用して文書検索を行う場合と専門家による文書の推薦を受ける場合を想定して比較し、専門家の持つ専門知識が果たす役割について考察を行い、専門家が問題領域を同定する過程を意味ネットワークモデルを用いて定性的にシミュレートし、有効な文書推薦を行うためには検索課題を持つ人間と専門家それぞれの持つ意味ネットワークが相似でなければならないとし、これから、専門分野の検索システムには専門知識を内蔵することが有効であるとし、専門知識を扱う枠組みとしてオントロジー工学を応用することを提案している。

 第2章はオントロジーの概要について述べている。オントロジー研究の歴史的な経緯を紹介して、自動推論に用いられる記号に明確な意味定義を与えることが必要と考えられるようになった経緯や、記号に明確な意味定義を与えることによって人工知能システムや人間など知能機械一般のコミュニケーションが円滑になるという利点をまとめている。またさまざまな研究者によるオントロジーの定義を紹介し、本論文で提案される手法でオントロジーとして利用できる知識の必要十分条件を与えている。

 第3章は情報検索の概要について、代表的な検索モデルの紹介のほか、適合性という観念を科学的に扱う問題の本質的な難しさ、実験方法の有効性と限界を中心に説明している。

 第4章は関連研究をまとめており、文書検索を単語レベルから概念レベルに移行させることを目的としたアプローチを紹介している。また東京大学図書館で契約する論文検索サービスの検索結果を根拠にして、現段階では明示的にオントロジーを利用した情報検索モデルは報告されていないとしている。

 第5章は提案する文書検索手法を解説しており、ベクトルモデルにオントロジーの概念項目を応用した概念レベルのベクトルモデルを提案している。また活性伝播モデルを用いてこのベクトル要素を決定する方法を具体化している。このモデルでは活性伝播率と呼ぶチューニングパラメータを導入している。

 第6章は人工知能分野の文書を用いたクランフィールド型実験の結果を報告しており、再現率、精度と11点平均精度のそれぞれの評価基準でキーワード検索よりも明らかな性能改善が認められたとしている。具体的にはキーワード検索では再現率が最大0.4であったのに対し、人工知能オントロジーを利用した今回の手法で0.9付近まで改善すること、精度においても全般的に提案する手法が上回ること、11点平均精度では1.3倍以上の性能改善が観察されたとしている。

 第7章は同様の条件のクランフィールド型実験によって活性伝播率を変化させた場合の性能の変化を報告しており、活性伝播率の最適値が存在したことからこの手法を利用するためにはチューニングが必要であろうこと、オントロジーの任意性などから最適値はこの手法が利用される条件に依存するであろうことを考察している。さらに実験では活性伝播率をオントロジーの構造に応じて2種類に区別してあり、これらを別々に変化させた結果から、実験に用いたオントロジーの各抽象度の概念が検索性能に寄与した割合を概算で求めている。この考察として低い抽象度の付近の概念をより充実させることによって今回の実験よりも検索性能が向上する可能性を示唆している。

 第8章は研究の展望を述べており、チューニングパラメータを機械学習させることが論理的に可能であることを説明し、また検索に用いているオントロジーの代わりに機械学習した概念体系を用いる方法を提案している。

 第9章は結論である。

 以上を要すれば、本論文はオントロジーを利用した新しい文書検索手法を提案してその有効性を明らかにするなど、これからの発展が見込まれる知的な文書検索の分野の基礎技術に関する知見を得ており、システム量子工学の発展に寄与するところが少なくない。よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク