内容要旨 | | これまで用いられてきたキーワードベースによる文書検索手法では,昨今のネットワークの発展に伴う文書数の爆発的増大に本質的な解答を示せない上,検索語の指定などで検索スキルを持たない利用者が十分な結果を得ることは困難になってきている.この問題は,文書検索システムが,1)文書内の言語表現間に適切な類似性を判定できず,単なるキーワードサーチに終止している,2)ユーザが与える検索文以外の隠れた条件(検索者の選好・知識・意図等)を活用できていない,という原因による. そこで,本研究では上記の問題それぞれに対し,a)自然言語表現の意味を限定する上で重要,かつ文書検索等の場面で求められている係り受け表現を取り上げ,その構造の持つ意味を考慮した上で類似性を判定する,b)検索者が与えた検索文内の語句と検索結果から実際に選択されたリソース内語句との関連,閲覧者が連続してクリックしていく語句間の関連性(ユーザ視点情報)を類似性の判定において考慮するというアプローチを採用し,文書検索等で必須となる言語表現間の類似性判定処理を拡張することを目的とする.このような,ユーザ視点情報と係り受け構造を考慮する拡張により,従来の文書検索システムにはない「検索者が言語化できていない隠された条件を活用した柔軟性のある類似表現」検索が可能になる. そこで本研究では,簡単な係り受け構造を持つ表現に対する類似度判定手法を提案する.さらに,ユーザ視点情報を考慮した上で,この類似度判定に反映させることを試みる.この手法は,従来ならあらかじめ構成しておかねばならない知識ベースに対応する統計・共起情報を,検索対象となるテキストを含むコーパスから動的に求めることで,知識ベースの構成や保守に要する手間を無くすと共に,対象テキストを格解析した情報を利用することで,単なる統計情報による情報検索よりも的確な処理が行なえると期待される. まず,この類似度判定手法の詳細を述べる.本研究では,情報検索の一要素という利用場面を考えて,この手法で扱うことのできる係り受け構造を持った語句を「係り受けの深さが一段の句構造」に限定することにした.その上で,名詞(形容動詞)・動詞・形容詞に限定した格フレームへとその語句表現を格解析する. 実際の類似度判定手法であるが,入力表現対それぞれの"類似事例"がコーパス内で出現している,その前後の表現の格情報の分布の相関を調べることで入力表現対の類似度が定義できることが予想されるため,本研究では,以下のような二段階の処理による類似度判定手法を提案する.1)入力表現のコーパス内の類似事例への動的なマッピング(図1).2)類似事例の近傍の格情報間での相関値の計算(図2).この手法の実際の評価は後述することにし,まず,この手法の構成要素として求められる二つの処理について述べる. この類似性判定手法では,動的な格解析を行なうために高速な形態素解析処理が要求される上,毎日のように内容が変更されるようなデータベースへ対応するために未知語への耐性も必要となる.そこで,本研究では文字単位のn-gramデータをコーパスから抽出し,そのデータからk-NN法を用いて形態素分割および品詞属性の付加を行なう統計的形態素解析手法を提案・評価した.これにより,前処理として単語辞書を用いた形態素分割を行なう必要がなくなり,かつ高速な処理が実現できる. 図1:コーパス内の類似事例へのマッピング図2:類似事例の近傍の格情報間で相関値を計算図3:品詞属性まで含めた一致度図4:10000文当りの解析時間 このアルゴリズムによる形態素推定処理を,EDRコーパスを元にして評価した.使用したn-gramデータには,EDRコーパスからオープンデータ評価用とクローズデータ評価用の二つのデータをそれぞれ抽出した.その上で,評価用1000文を解析して結果がEDRコーパスに記載された正解と完全に一致するかどうかで「形態素分割と品詞付与の精度」(図3)を求めた.また,10,000文の処理時間を求め,従来手法のchasenとの比較を行なった(図4). k-NN法の性質から予想される通り,クローズデータ評価の下では利用するn-gramデータの種類(N)が大きくなる程,解析精度も上がることが示されている.オープンデータ評価での最高精度93%は,従来のHMMを用いた統計的形態素解析手法とほぼ同等の精度であるが,このn-gramデータから不要なものを削除する等の調整を行なうことで更に精度が上がると予想される. 処理速度を見ると,オープンデータ評価で最も高い精度が得られるN=3の場合に,約20000文字/秒の速度で解析しており,これは従来の接続ルールに基づく手法であるchasenの約1.5倍にもなる(chasenは現在,最も高速な形態素解析パーザの一つである).速度の点についても,不要データの削除,検索アルゴリズムの改良,並列化によって,更に向上させることが可能である. このように,評価の結果から,k-NN法という単純な方法を用いることで93%という品詞付与精度と約20000文字/秒という高速な解析速度が実現された.この速度と精度は,先に述べた類似度判定手法を実現する上で適切な手法であると言える. 次に,もう一つの構成要素である,視点情報を考慮した概念間類似度判定処理について述べる. 同じ二つの言語表現(概念)であっても,それがどのような視点の下で判断されるかによって,それらの類似度も異なってくるが,これまでそのような類似度の視点依存性は扱われていなかった.本研究では,そのような視点情報によって類似の度合が変化する類似性の尺度(類似性規準)を提案し,評価を行なった. 図5:類義語対被覆率に対する非類義語対被覆率図6:各手法の類似度と人間判断との相関係数 本手法では,コーパスから抽出した共起データを基本データとして用い,そこに意味的な制約を加えるという逆の立場を採る.さらに,その意味的な制約の中に視点情報というパラメータを導入して,視点情報による類似度値の変化を考慮している. この手法を,従来の代表的な類似性基準と共に評価を行なった.本研究での評価方法は,それぞれの類似性規準において,類似と判断されるスレッショルドを変えていった場合に,与えられた類義語対と非類義語対の内,どのくらいの割合が類義と判断されるかという被覆率を調べるものである.その結果を図5に示す.このグラフは,あるスレッショルドの下で,類義語対集合のある一定割合を類義と判断できる時に,類義と(間違って)判断されてしまう非類義語対の割合を示すものであり,データ系列がグラフ中で下方に位置する程,類義語対と非類義語対の分離の度合が良いと判断される. この結果から,単語の共起情報を用いた類似性規準は,判定可能な単語(概念)が利用したコーパスに依存するという問題があるとは言え,シソーラス構造を用いた類似性規準よりも分離精度は高いと言える.そして,coに対して意味的係り受け情報と視点情報による重み付けを行なった提案手法であるpovは,オリジナルよりも高い分離精度になることが示された. この結果からは個々の単語対に対して計算される類似度値が妥当かどうか,すなわち人間の判断とある程度の相関を持つ値かどうかを判断できない.そこで,心理実験を通して人間が判断する類似度との比較を行なった.各手法により計算した類似度と人間が判断した得点との相関係数を図6に示す.この結果を見ても,共起情報に重み付けを行なうことで(pov(1.2),pov(2.0)),本手法と人間の判断との相関は従来手法よりも高くなり,適切なパラメータ(pov(2.0))を選択することで,評価した手法の中では最も高い相関を示すことも示された. これらの結果より,本手法は,被覆率による評価で高い分離精度を示し,人間の類似性判断との相関の面でも,他の類似性規準と較べて高い精度を示すことが分かった.すなわち,本手法は前述の類似度判定手法で必要とされている概念間類似度判定手法として適切であると思われる. 最後に,始めに提案したユーザ視点情報を考慮した係り受け表現間の類似度判定手法を実装し,その各部の精度評価を行なった. まず,このシステムで実装されている簡略化した格解析の精度を,EDRコーパスの先頭1000文中の一段の句構造を再解析することで評価した.名詞(形容動詞)・動詞・形容詞以外の語句は無視して求めた結果を図8に示す.簡略化した割には良好な結果がでていると思われる.これは,扱う品詞を限定したこと,それらの品詞と表層格マーカ(助詞)の関係がかなり固定的だったことなどが原因と推定される.誤検出の原因としては,連体修飾語句や助詞「の」などの多義性に影響されたと思われる間違いが大半を占めていた.ただ,本研究が対象とする文書検索などの場面では,構造的により簡単な文が与えられることが多い. 図7:類義語対被覆率に対する非類義語対被覆率図8:簡略化した格解析処理の精度図9:3種の係り受け表現対に対する類似度平均図10:類似事例へのマッピング精度(視点情報なし)図11:類似事例へのマッピング精度(視点情報あり) 同様に,提案手法の中の類似事例へのマッピングの精度を評価した.評価方法は,毎日新聞DB94年度版から格フレーム一つで構成されるような文200文を取り出し,本手法を用いてその同じコーパス内の類似事例へと対応させた結果が,元の入力文自身であった場合を正解として,その割合を求めるというものである.視点情報を与えない場合の結果を図10に示す.第一位の解が正解でない場合,大半は入力文とほぼ同内容であることを確認している(新聞記事が主体のコーパスでは同内容の文が複数出現することがよくある).また,その場合の誤検出の原因は,同義語展開処理や,格解析処理で誤っていた場合が多かった.一方,入力文の主単語を視点単語として与えた場合の結果を図11に示す.第一位が正解である割合が落ちているが,逆に5位までの解が同義語・類義語を含む割合が増えることが確認された.つまり,視点情報を与えることで,より広い類似事例が検索されていることになる. 最後に,本手法による係り受け表現間の類似度値の精度(妥当性)を評価するための実験を行なった.類似度の妥当性を客観的に評価することは困難であるが,前述の単語間類似度と同じ入力データを用いることで,格情報とコーパスデータを利用することでの精度向上を評価し,係り受けの考慮による精度向上を,人工的な3種の入力データに対する類似度値の分布を調べることで評価した.まず,図5のpov(2.0)と同じ条件での評価結果を図7に示す.この結果から,若干であるが,格情報とコーパスデータを利用することによって分離精度が向上していることが分かる.係り側の語句が意味選択制限を満たす/満たさないの二通りを入力とする,全部で3種のデータを人工的に生成し,それらの類似度値の分布を求めた結果を図9に示す.意味的に正しい係り語句を持つ表現同士(1.)では係り語句間の類似性が考慮されて類似度は高くなり,一方だけ正しい場合は格情報の対応が取れずに類似度が低くなると予想される.この結果を見ると,間接的ではあるがこの予想を支持する結果と言え,係り受け構造の意味を考慮する有効性が示された. 本研究では,文書の検索・閲覧者の選好/知識情報をユーザ視点として利用し,文書検索の場面で求められる係り受け構造を持つ言語表現間の類似度を判定する手法を提案した.さらに,この手法の要素技術となる,文字n-gramデータとk-NN法を用いた高速な形態素解析処理,視点情報による重み付けを行なう概念間の類似度判定処理を提案し,評価を行なった.これらの手法は,従来手法よりも高速であったり高精度であることが示された.最後に,提案したユーザ視点情報を考慮した係り受け表現間の類似性判定手法を実装し,その各部の評価を行なった上,その有効性を示した. |