内容要旨 | | インターネットに代表される情報環境の急速な整備・拡大により,研究や仕事などに必要となる情報を収集する過程はますます容易になりつつある.その反面,入手可能な情報量が人間の情報処理能力を越え,かえって効率が低下するという,いわゆる「情報過多(information overflow)」が問題となってきている.すなわち,今までは情報不足が知的活動の足かせとなっていたのが,今後は収集した情報をいかに生かしきるかが死活問題になるといえよう. データベースからの知識発見はデータマイニング,数値データは統計的処理,といったように,大量データを扱う方法論についてはいろいろ研究されているが,我々にとって最も身近な情報源である文書情報が大量に入手された場合,これを活用する方法論については十分な研究がなされているとはいえないのが現状である. 本研究の目的は,大量文書情報をユーザが整理・活用する過程を支援するシステムの開発であり,そのための基盤技術として,ユーザの視点を動的に反映した文書の特徴づけおよび関連性の計算を行う手法を提案した.この手法はFish Eyeマッチングと呼ばれ,電子化辞書の概念体系を利用して概念単位の単語特徴の選択,縮退を行うものであり,対象に依存した知識をあらかじめ用意する必要がない.また,視点を反映したマッチングを行えるだけでなく,視点を外化することが可能となるため,ユーザが考えを整理する上で有効な刺激・情報を与える効果も期待できる. ここでユーザの視点とは,「ある文書を読む時に仮定する,その属する話題,分野」であるとする.この考えによれば,一つの文書が属する話題が一意に定まるという事は稀であり,たいていは複数の視点から読む事が可能であると考えられる.また,ある種の話題間には包含関係が存在するため,同じ角度からの視点であっても,専門的な狭い話題として捉えたり,より一般的な,広い枠組で捉えたりする事も可能である.従って,各単語を固定的に次元とし,各次元毎の重みのみを調整する従来の特徴ベクトル空間では,ユーザの視点を十分に捉える事ができないと考えられる. 例えば,スポーツに関する話題かどうかを区別する程度の粗い視点であれば,「野球」,「サッカー」などといった単語は「スポーツ」という一つの特徴に縮退させるべきであり,反対にスポーツ以外の話題には興味がない場合には,「野球」や「サッカー」といったスポーツに関係する単語以外は特徴として用いるべきではない. 具体的には,Fish Eyeマッチングでは以下の様な特徴生成(縮退・選択)演算を用いることにより,視点に合わせた特徴集合を生成する.ここで,W={w1,…,wN}は単語集合である. これより,単語を縮退して特徴を生成する演算子Shrinkは大まかな関係の概略視,視点に関する単語のみを特徴として選択する演算子Magnifyは詳細な関係の発見に有効であると考えられる. また,giはある話題に関する単語のグループであり,視点意味グループと呼ばれる.すなわちFish Eyeマッチングでは,ユーザの視点は演算子への引数として与えられる視点意味グループ集合として定義される.視点意味グループは,EDR電子化辞書の概念体系辞書中に存在する概念から選択されるため,単に統計的処理のみによって抽出される単語グループに比べ,ユーザの常識に合致しているという利点がある. 視点意味グループ集合はユーザが指定する事もできるが,ユーザにとっては一つの視点であっても,これを構成する視点意味グループは複数存在するのが普通であり,それら全てをユーザ自身の手で指定する事は困難であると考えられる.従って本研究では,ユーザがある視点のもとで関係あり/なしに文書を分類した結果から,視点を構成する視点意味グループ集合を計算するアルゴリズムを提案した.このアルゴリズムは,従来の適合フィードバックと同様の計算により求めた単語毎の重みをもとに,greedyな探索を行って視点意味グループを抽出していく. このアルゴリズムを用いて抽出された視点意味グループをもとにFish Eyeマッチングを行い,通常の適合フィードバックと文書検索性能を比較した結果を図1に記す.この図はインターネット上で公開されているオンラインニュース記事(日本語)から医学に関する記事を検索した結果であるが,通常の適合フィードバックで検索を行った場合以上の適合率が得られているのがわかる. 図1:文書検索実験結果 また,EDR辞書中には各概念を説明する表1の様な見出し情報も収録されており,これからも抽出された意味グループの適切さが判断できる.また,見出し情報を視点情報として提供する事によってユーザの思考に刺激を与える効果も期待でき,これもFish Eyeマッチングの持つ利点の一つであるといえる. 表1:抽出された視点意味グループの一例 本研究で開発した文書整理支援システムFish Viewでは,このFish Eyeマッチングを用いることにより,視点情報を活用したユーザ支援を実現している.すなわち,ユーザが視点を反映した文書の整理結果を図解の形で表現すると,システムはこの図解からユーザの視点を抽出する事ができる.これにより,ユーザは自分の視点を確認し,場合によっては思いがけない視点(アイデア)を得る事も期待できる. また,抽出された視点に基づいて文書を検索したり,図解内の文書間の関係を視点をもとに再発見する事もできる.これにより,ユーザは自分の視点に応じて漸進的に文書を読み進めていくことが可能となるだけでなく,文書数が大量になった場合でも,文書間の関係を見逃したり,混乱に陥ることが避けられると考えられる. このシステムを数人のユーザに実際に使ってもらったところ,以下の様な評価が得られた. 1.視点に基づく検索は便利であり,精度も良好であると評価された. 2.見出し情報による視点情報がわかりづらいと感じる人もいた. 3.見出し情報による視点情報の,適切さに関する評価がユーザによりまちまちであった. 4.リンクによる関係表示は便利であると評価されたが,Shrink,Magnify両演算子の使い分けなどが難しく,十分に使いこなせていないケースも目立った. 2.に関しては,Fish Eyeマッチングではユーザの視点を複数の意味グループの集合体として扱うために,視点と視点情報との対応がわかりづらくなっていることが原因と考えられる.これと3.より,EDR電子化辞書中に存在する概念のみを視点情報のプリミティブとするのでは,ユーザの視点を十分に捉えきれないと考えられる.我々の常識を体系化したものといえる概念体系を背景知識とする事により,対象文書を限定しない汎用的なシステムを構築する事ができると言うメリットはあるものの,システムの有効性をさらに向上させるには,概念体系の修正,および新概念の追加などを行う必要があると言えよう. また,この様なツールを使用した経験のある被験者がいなかったため,ツールの機能,使い方が十分に理解されていないケースも目立ったが,図解に基づく文書整理支援という形態については全員が有効であると感じており,論文の整理や人物評価,新聞スクラップの整理など,日常の活動の様々な用途に実際に使用してみたいとの評価を受けた. 本研究で提案した文書整理支援システムの機能を高め,洗練させる事により,日常生活においてシームレスな支援を実現する事ができれば,今後ますます発展するであろう情報環境において,我々が知的創造活動を行う上で欠かせない存在となるであろう. |