学位論文要旨



No 113471
著者(漢字) 永松,健司
著者(英字)
著者(カナ) ナガマツ,ケンジ
標題(和) ユーザの視点に基づく自然言語表現間の類似性判定に関する研究
標題(洋)
報告番号 113471
報告番号 甲13471
学位授与日 1998.03.30
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4189号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
 東京大学 教授 武市,正人
 東京大学 教授 石塚,満
 東京大学 教授 堀,浩一
内容要旨

 これまで用いられてきたキーワードベースによる文書検索手法では,昨今のネットワークの発展に伴う文書数の爆発的増大に本質的な解答を示せない上,検索語の指定などで検索スキルを持たない利用者が十分な結果を得ることは困難になってきている.この問題は,文書検索システムが,1)文書内の言語表現間に適切な類似性を判定できず,単なるキーワードサーチに終止している,2)ユーザが与える検索文以外の隠れた条件(検索者の選好・知識・意図等)を活用できていない,という原因による.

 そこで,本研究では上記の問題それぞれに対し,a)自然言語表現の意味を限定する上で重要,かつ文書検索等の場面で求められている係り受け表現を取り上げ,その構造の持つ意味を考慮した上で類似性を判定する,b)検索者が与えた検索文内の語句と検索結果から実際に選択されたリソース内語句との関連,閲覧者が連続してクリックしていく語句間の関連性(ユーザ視点情報)を類似性の判定において考慮するというアプローチを採用し,文書検索等で必須となる言語表現間の類似性判定処理を拡張することを目的とする.このような,ユーザ視点情報と係り受け構造を考慮する拡張により,従来の文書検索システムにはない「検索者が言語化できていない隠された条件を活用した柔軟性のある類似表現」検索が可能になる.

 そこで本研究では,簡単な係り受け構造を持つ表現に対する類似度判定手法を提案する.さらに,ユーザ視点情報を考慮した上で,この類似度判定に反映させることを試みる.この手法は,従来ならあらかじめ構成しておかねばならない知識ベースに対応する統計・共起情報を,検索対象となるテキストを含むコーパスから動的に求めることで,知識ベースの構成や保守に要する手間を無くすと共に,対象テキストを格解析した情報を利用することで,単なる統計情報による情報検索よりも的確な処理が行なえると期待される.

 まず,この類似度判定手法の詳細を述べる.本研究では,情報検索の一要素という利用場面を考えて,この手法で扱うことのできる係り受け構造を持った語句を「係り受けの深さが一段の句構造」に限定することにした.その上で,名詞(形容動詞)・動詞・形容詞に限定した格フレームへとその語句表現を格解析する.

 実際の類似度判定手法であるが,入力表現対それぞれの"類似事例"がコーパス内で出現している,その前後の表現の格情報の分布の相関を調べることで入力表現対の類似度が定義できることが予想されるため,本研究では,以下のような二段階の処理による類似度判定手法を提案する.1)入力表現のコーパス内の類似事例への動的なマッピング(図1).2)類似事例の近傍の格情報間での相関値の計算(図2).この手法の実際の評価は後述することにし,まず,この手法の構成要素として求められる二つの処理について述べる.

 この類似性判定手法では,動的な格解析を行なうために高速な形態素解析処理が要求される上,毎日のように内容が変更されるようなデータベースへ対応するために未知語への耐性も必要となる.そこで,本研究では文字単位のn-gramデータをコーパスから抽出し,そのデータからk-NN法を用いて形態素分割および品詞属性の付加を行なう統計的形態素解析手法を提案・評価した.これにより,前処理として単語辞書を用いた形態素分割を行なう必要がなくなり,かつ高速な処理が実現できる.

図1:コーパス内の類似事例へのマッピング図2:類似事例の近傍の格情報間で相関値を計算図3:品詞属性まで含めた一致度図4:10000文当りの解析時間

 このアルゴリズムによる形態素推定処理を,EDRコーパスを元にして評価した.使用したn-gramデータには,EDRコーパスからオープンデータ評価用とクローズデータ評価用の二つのデータをそれぞれ抽出した.その上で,評価用1000文を解析して結果がEDRコーパスに記載された正解と完全に一致するかどうかで「形態素分割と品詞付与の精度」(図3)を求めた.また,10,000文の処理時間を求め,従来手法のchasenとの比較を行なった(図4).

 k-NN法の性質から予想される通り,クローズデータ評価の下では利用するn-gramデータの種類(N)が大きくなる程,解析精度も上がることが示されている.オープンデータ評価での最高精度93%は,従来のHMMを用いた統計的形態素解析手法とほぼ同等の精度であるが,このn-gramデータから不要なものを削除する等の調整を行なうことで更に精度が上がると予想される.

 処理速度を見ると,オープンデータ評価で最も高い精度が得られるN=3の場合に,約20000文字/秒の速度で解析しており,これは従来の接続ルールに基づく手法であるchasenの約1.5倍にもなる(chasenは現在,最も高速な形態素解析パーザの一つである).速度の点についても,不要データの削除,検索アルゴリズムの改良,並列化によって,更に向上させることが可能である.

 このように,評価の結果から,k-NN法という単純な方法を用いることで93%という品詞付与精度と約20000文字/秒という高速な解析速度が実現された.この速度と精度は,先に述べた類似度判定手法を実現する上で適切な手法であると言える.

 次に,もう一つの構成要素である,視点情報を考慮した概念間類似度判定処理について述べる.

 同じ二つの言語表現(概念)であっても,それがどのような視点の下で判断されるかによって,それらの類似度も異なってくるが,これまでそのような類似度の視点依存性は扱われていなかった.本研究では,そのような視点情報によって類似の度合が変化する類似性の尺度(類似性規準)を提案し,評価を行なった.

図5:類義語対被覆率に対する非類義語対被覆率図6:各手法の類似度と人間判断との相関係数

 本手法では,コーパスから抽出した共起データを基本データとして用い,そこに意味的な制約を加えるという逆の立場を採る.さらに,その意味的な制約の中に視点情報というパラメータを導入して,視点情報による類似度値の変化を考慮している.

 この手法を,従来の代表的な類似性基準と共に評価を行なった.本研究での評価方法は,それぞれの類似性規準において,類似と判断されるスレッショルドを変えていった場合に,与えられた類義語対と非類義語対の内,どのくらいの割合が類義と判断されるかという被覆率を調べるものである.その結果を図5に示す.このグラフは,あるスレッショルドの下で,類義語対集合のある一定割合を類義と判断できる時に,類義と(間違って)判断されてしまう非類義語対の割合を示すものであり,データ系列がグラフ中で下方に位置する程,類義語対と非類義語対の分離の度合が良いと判断される.

 この結果から,単語の共起情報を用いた類似性規準は,判定可能な単語(概念)が利用したコーパスに依存するという問題があるとは言え,シソーラス構造を用いた類似性規準よりも分離精度は高いと言える.そして,coに対して意味的係り受け情報と視点情報による重み付けを行なった提案手法であるpovは,オリジナルよりも高い分離精度になることが示された.

 この結果からは個々の単語対に対して計算される類似度値が妥当かどうか,すなわち人間の判断とある程度の相関を持つ値かどうかを判断できない.そこで,心理実験を通して人間が判断する類似度との比較を行なった.各手法により計算した類似度と人間が判断した得点との相関係数を図6に示す.この結果を見ても,共起情報に重み付けを行なうことで(pov(1.2),pov(2.0)),本手法と人間の判断との相関は従来手法よりも高くなり,適切なパラメータ(pov(2.0))を選択することで,評価した手法の中では最も高い相関を示すことも示された.

 これらの結果より,本手法は,被覆率による評価で高い分離精度を示し,人間の類似性判断との相関の面でも,他の類似性規準と較べて高い精度を示すことが分かった.すなわち,本手法は前述の類似度判定手法で必要とされている概念間類似度判定手法として適切であると思われる.

 最後に,始めに提案したユーザ視点情報を考慮した係り受け表現間の類似度判定手法を実装し,その各部の精度評価を行なった.

 まず,このシステムで実装されている簡略化した格解析の精度を,EDRコーパスの先頭1000文中の一段の句構造を再解析することで評価した.名詞(形容動詞)・動詞・形容詞以外の語句は無視して求めた結果を図8に示す.簡略化した割には良好な結果がでていると思われる.これは,扱う品詞を限定したこと,それらの品詞と表層格マーカ(助詞)の関係がかなり固定的だったことなどが原因と推定される.誤検出の原因としては,連体修飾語句や助詞「の」などの多義性に影響されたと思われる間違いが大半を占めていた.ただ,本研究が対象とする文書検索などの場面では,構造的により簡単な文が与えられることが多い.

図7:類義語対被覆率に対する非類義語対被覆率図8:簡略化した格解析処理の精度図9:3種の係り受け表現対に対する類似度平均図10:類似事例へのマッピング精度(視点情報なし)図11:類似事例へのマッピング精度(視点情報あり)

 同様に,提案手法の中の類似事例へのマッピングの精度を評価した.評価方法は,毎日新聞DB94年度版から格フレーム一つで構成されるような文200文を取り出し,本手法を用いてその同じコーパス内の類似事例へと対応させた結果が,元の入力文自身であった場合を正解として,その割合を求めるというものである.視点情報を与えない場合の結果を図10に示す.第一位の解が正解でない場合,大半は入力文とほぼ同内容であることを確認している(新聞記事が主体のコーパスでは同内容の文が複数出現することがよくある).また,その場合の誤検出の原因は,同義語展開処理や,格解析処理で誤っていた場合が多かった.一方,入力文の主単語を視点単語として与えた場合の結果を図11に示す.第一位が正解である割合が落ちているが,逆に5位までの解が同義語・類義語を含む割合が増えることが確認された.つまり,視点情報を与えることで,より広い類似事例が検索されていることになる.

 最後に,本手法による係り受け表現間の類似度値の精度(妥当性)を評価するための実験を行なった.類似度の妥当性を客観的に評価することは困難であるが,前述の単語間類似度と同じ入力データを用いることで,格情報とコーパスデータを利用することでの精度向上を評価し,係り受けの考慮による精度向上を,人工的な3種の入力データに対する類似度値の分布を調べることで評価した.まず,図5のpov(2.0)と同じ条件での評価結果を図7に示す.この結果から,若干であるが,格情報とコーパスデータを利用することによって分離精度が向上していることが分かる.係り側の語句が意味選択制限を満たす/満たさないの二通りを入力とする,全部で3種のデータを人工的に生成し,それらの類似度値の分布を求めた結果を図9に示す.意味的に正しい係り語句を持つ表現同士(1.)では係り語句間の類似性が考慮されて類似度は高くなり,一方だけ正しい場合は格情報の対応が取れずに類似度が低くなると予想される.この結果を見ると,間接的ではあるがこの予想を支持する結果と言え,係り受け構造の意味を考慮する有効性が示された.

 本研究では,文書の検索・閲覧者の選好/知識情報をユーザ視点として利用し,文書検索の場面で求められる係り受け構造を持つ言語表現間の類似度を判定する手法を提案した.さらに,この手法の要素技術となる,文字n-gramデータとk-NN法を用いた高速な形態素解析処理,視点情報による重み付けを行なう概念間の類似度判定処理を提案し,評価を行なった.これらの手法は,従来手法よりも高速であったり高精度であることが示された.最後に,提案したユーザ視点情報を考慮した係り受け表現間の類似性判定手法を実装し,その各部の評価を行なった上,その有効性を示した.

審査要旨

 本論文は、「ユーザの視点に基づく自然言語表現間の類似性判定に関する研究」と題し、7章からなる。インターネットの発達に伴い、世界中の膨大な情報にアクセスすることが容易になってきたが、反面、その中から真に欲しい情報を探すことも困離になっている。それに対処する為には、情報を文書情報に限れば、内容に基づいた自動検索が必要となるが、その基本をなすのは、自然言語表現間の類似性判定である。本論文は、この類似性判定の手法を検討したものである。

 第1章「はじめに」では、研究の背景と目的、並びに論文の構成について述べている。

 第2章「言語表現における類似性」は、言語表現における類似性の研究について従来の成果をまとめ、それらが単語の共起関係のみを用い、特徴間の構造情報を扱えないこと、ユーザ視点を考慮する機能が欠如していること等の問題を指摘している。また文書検索研究の現状をサーベイし、それらの検索方式が、いずれも、過剰検索の問題があり、検索者の言語化能力に頼ったもので適切な出力を出すという意味で限界があることを述べている。

 第3章「ユーザ視点を考慮した言語表現間の類似性判定手法の枠組の提案」では、簡単な係り受け構造を持つ表現を対象とする類似性判定手法を提案するとともに、ユーザ視点情報を抽出し、その類似性判定に反映させる処理方式を提案している。前者に関しては、大規模コーパスを扱うために簡略化した格解析処理を考案し、それを用いてコーパス内に於ける入力表現との類似事例をまず検索する。次に、入力表現内単語と出現単語との概念間類似度に基づき、それら類似事例ごとの得点を求め、この得点の高い方から順に、類似事例の近傍の文章を格解析し、入力表現との間の類似度を計算して、その得点を調整している。また、ユーザ視点情報としては、ユーザのインタラクションの順番に並んだ単語列を視点履歴と考えることにし、それを用いて前述の類似度得点への重み付けをおこなう。

 第4章「コーパスとの類似生に基づく形態素解析手法の提案」は、本研究のベースとなる高速な形態素解析手法を提案したもので、文字単位のn-gramデータをコーパスから抽出し、それを基にk-Nearest Neighbor法を用いて形態素分割および品詞属性の付加を行う手法である。評価の結果、93%の解析精度と、従来の形態素解析手法の1.5倍、すなわち20,000文字/秒という速度が実現されていることを示している。

 第5章[視点情報による重み付けを行う概念間の類似性判定手法の提案」では、まず、従来の類似度計算手法をまとめ、それが客観性に乏しいことを指摘し、それに代わるものとして類似語対・非類似語対の被覆率に基づく類似性基準を提案し、幾つかの辞書を用いて評価してその有効性を示している。次に、第3章で述べた、ここで提案する類似度計算手法を詳述し定式化した後、二つの方法でそれを評価している。一つは、被覆率を用いた評価で、本提案手法は、過去の類似度判定法よりも優れていることが示されている。更に、本提案手法の類似性判定法が、人間の判断とどれほどの相関を示すものか、14人の被験者を用いた心理実験を行い、相関が高いことによってその妥当性を示している。また、本章では、この手法の応用として、文書のカテゴリ分類処理と、簡単な文書検索処理に適用した結果を示している。

 第6章「ユーザ視点を考慮した言語表現間の類似性判定手法の評価」は、前章迄の提案手法を実装し、その各部の評価を行うとともに、人工的に構成したベンチマークデータを用いて全体的な評価をおこなったもので、まず、毎日新聞記事データベース94を用いて、その中からある特定の記事を検索する作業を行った結果、ユーザ視点として格フレーム内の主要要素を視点単語として用いることによって、検索結果がその視点方向へより影響を受けたものになること、更に、係り受け表現間の類似度値に対する評価をIPAL辞書とEDR共起辞書を用いて行った結果、単なる単語間類似度では無視されて来た文章間の関連が有意に取り出されていることを示している。

 第7章は結論である。

 以上、これを要するに本論文は、自然言語表現間の類似度を、その判定を行う場合のユーザ視点を考慮して計算する手法を明らかにし、辞書や新聞記事などの実データを用いてその有効性を示したもので、情報工学上貢献する所少なくない。

 よって、著者は東京大学大学院工学系研究科情報工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク