学位論文要旨



No 114239
著者(漢字) 高間,康史
著者(英字)
著者(カナ) タカマ,ヤスフミ
標題(和) 概念体系に基づく視点情報を用いた文書整理支援システムに関する研究
標題(洋)
報告番号 114239
報告番号 甲14239
学位授与日 1999.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4365号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 教授 斎藤,忠夫
 東京大学 教授 田中,英彦
 東京大学 教授 安達,淳
 東京大学 教授 近山,隆
 東京大学 助教授 相田,仁
 東京大学 助教授 伊庭,斉志
内容要旨

 インターネットに代表される情報環境の急速な整備・拡大により,研究や仕事などに必要となる情報を収集する過程はますます容易になりつつある.その反面,入手可能な情報量が人間の情報処理能力を越え,かえって効率が低下するという,いわゆる「情報過多(information overflow)」が問題となってきている.すなわち,今までは情報不足が知的活動の足かせとなっていたのが,今後は収集した情報をいかに生かしきるかが死活問題になるといえよう.

 データベースからの知識発見はデータマイニング,数値データは統計的処理,といったように,大量データを扱う方法論についてはいろいろ研究されているが,我々にとって最も身近な情報源である文書情報が大量に入手された場合,これを活用する方法論については十分な研究がなされているとはいえないのが現状である.

 本研究の目的は,大量文書情報をユーザが整理・活用する過程を支援するシステムの開発であり,そのための基盤技術として,ユーザの視点を動的に反映した文書の特徴づけおよび関連性の計算を行う手法を提案した.この手法はFish Eyeマッチングと呼ばれ,電子化辞書の概念体系を利用して概念単位の単語特徴の選択,縮退を行うものであり,対象に依存した知識をあらかじめ用意する必要がない.また,視点を反映したマッチングを行えるだけでなく,視点を外化することが可能となるため,ユーザが考えを整理する上で有効な刺激・情報を与える効果も期待できる.

 ここでユーザの視点とは,「ある文書を読む時に仮定する,その属する話題,分野」であるとする.この考えによれば,一つの文書が属する話題が一意に定まるという事は稀であり,たいていは複数の視点から読む事が可能であると考えられる.また,ある種の話題間には包含関係が存在するため,同じ角度からの視点であっても,専門的な狭い話題として捉えたり,より一般的な,広い枠組で捉えたりする事も可能である.従って,各単語を固定的に次元とし,各次元毎の重みのみを調整する従来の特徴ベクトル空間では,ユーザの視点を十分に捉える事ができないと考えられる.

 例えば,スポーツに関する話題かどうかを区別する程度の粗い視点であれば,「野球」,「サッカー」などといった単語は「スポーツ」という一つの特徴に縮退させるべきであり,反対にスポーツ以外の話題には興味がない場合には,「野球」や「サッカー」といったスポーツに関係する単語以外は特徴として用いるべきではない.

 具体的には,Fish Eyeマッチングでは以下の様な特徴生成(縮退・選択)演算を用いることにより,視点に合わせた特徴集合を生成する.ここで,W={w1,…,wN}は単語集合である.

 

 

 

 

 これより,単語を縮退して特徴を生成する演算子Shrinkは大まかな関係の概略視,視点に関する単語のみを特徴として選択する演算子Magnifyは詳細な関係の発見に有効であると考えられる.

 また,giはある話題に関する単語のグループであり,視点意味グループと呼ばれる.すなわちFish Eyeマッチングでは,ユーザの視点は演算子への引数として与えられる視点意味グループ集合として定義される.視点意味グループは,EDR電子化辞書の概念体系辞書中に存在する概念から選択されるため,単に統計的処理のみによって抽出される単語グループに比べ,ユーザの常識に合致しているという利点がある.

 視点意味グループ集合はユーザが指定する事もできるが,ユーザにとっては一つの視点であっても,これを構成する視点意味グループは複数存在するのが普通であり,それら全てをユーザ自身の手で指定する事は困難であると考えられる.従って本研究では,ユーザがある視点のもとで関係あり/なしに文書を分類した結果から,視点を構成する視点意味グループ集合を計算するアルゴリズムを提案した.このアルゴリズムは,従来の適合フィードバックと同様の計算により求めた単語毎の重みをもとに,greedyな探索を行って視点意味グループを抽出していく.

 このアルゴリズムを用いて抽出された視点意味グループをもとにFish Eyeマッチングを行い,通常の適合フィードバックと文書検索性能を比較した結果を図1に記す.この図はインターネット上で公開されているオンラインニュース記事(日本語)から医学に関する記事を検索した結果であるが,通常の適合フィードバックで検索を行った場合以上の適合率が得られているのがわかる.

図1:文書検索実験結果

 また,EDR辞書中には各概念を説明する表1の様な見出し情報も収録されており,これからも抽出された意味グループの適切さが判断できる.また,見出し情報を視点情報として提供する事によってユーザの思考に刺激を与える効果も期待でき,これもFish Eyeマッチングの持つ利点の一つであるといえる.

表1:抽出された視点意味グループの一例

 本研究で開発した文書整理支援システムFish Viewでは,このFish Eyeマッチングを用いることにより,視点情報を活用したユーザ支援を実現している.すなわち,ユーザが視点を反映した文書の整理結果を図解の形で表現すると,システムはこの図解からユーザの視点を抽出する事ができる.これにより,ユーザは自分の視点を確認し,場合によっては思いがけない視点(アイデア)を得る事も期待できる.

 また,抽出された視点に基づいて文書を検索したり,図解内の文書間の関係を視点をもとに再発見する事もできる.これにより,ユーザは自分の視点に応じて漸進的に文書を読み進めていくことが可能となるだけでなく,文書数が大量になった場合でも,文書間の関係を見逃したり,混乱に陥ることが避けられると考えられる.

 このシステムを数人のユーザに実際に使ってもらったところ,以下の様な評価が得られた.

 1.視点に基づく検索は便利であり,精度も良好であると評価された.

 2.見出し情報による視点情報がわかりづらいと感じる人もいた.

 3.見出し情報による視点情報の,適切さに関する評価がユーザによりまちまちであった.

 4.リンクによる関係表示は便利であると評価されたが,Shrink,Magnify両演算子の使い分けなどが難しく,十分に使いこなせていないケースも目立った.

 2.に関しては,Fish Eyeマッチングではユーザの視点を複数の意味グループの集合体として扱うために,視点と視点情報との対応がわかりづらくなっていることが原因と考えられる.これと3.より,EDR電子化辞書中に存在する概念のみを視点情報のプリミティブとするのでは,ユーザの視点を十分に捉えきれないと考えられる.我々の常識を体系化したものといえる概念体系を背景知識とする事により,対象文書を限定しない汎用的なシステムを構築する事ができると言うメリットはあるものの,システムの有効性をさらに向上させるには,概念体系の修正,および新概念の追加などを行う必要があると言えよう.

 また,この様なツールを使用した経験のある被験者がいなかったため,ツールの機能,使い方が十分に理解されていないケースも目立ったが,図解に基づく文書整理支援という形態については全員が有効であると感じており,論文の整理や人物評価,新聞スクラップの整理など,日常の活動の様々な用途に実際に使用してみたいとの評価を受けた.

 本研究で提案した文書整理支援システムの機能を高め,洗練させる事により,日常生活においてシームレスな支援を実現する事ができれば,今後ますます発展するであろう情報環境において,我々が知的創造活動を行う上で欠かせない存在となるであろう.

審査要旨

 本論文は「概念体系に基づく視点情報を用いた文書整理支援システムに関する研究」と題し、インターネットを始めとする情報空間から得られる大量の文書情報を、ユーザが効率的に整理・活用するのを支援する新しい機能とシステムについての研究をまとめたもので、7章より成る。"情報の整理を通じた熟読が入手した大量文書情報の活用につながる"との基本的考えの下に、ユーザの視点に基づく文書の整理過程の効率的支援機能の実現を図っている。

 第1章の「序論」は、研究の目的と論文の構成を記している。

 第2章「WWW上の情報検索・活用に関する従来の研究」では、本論文の研究に関係する情報検索・活用に関する全般的な従来技術、そして最近重要性が増してきているWWW(World Wide Web)空間上での情報検索・活用の従来技術とシステムについてまとめている。特に、本論文の研究に関係が深い、出現する単語(主に名詞)を要素とするベクトルで文書の特徴を表現するベクトル空間モデルとその拡張、及び適合フィードバック法について記している。

 第3章は「発想法・発想支援に関する従来の研究」である。本論文のシステムは発想支援の機能とも位置付けられるため、従来の発想法・発想支援の考え方を、発散的思考プロセス、収束的思考プロセスの観点からまとめている。そして、これまでの発想支援システムを、秘書レベル、枠組-パラダイムレベル、生成レベルに分類して論じている。

 第4章「テキストマイニングの新展開-ナレッジマネジメント」では、企業経営効率化のアプローチとして注目されてきているテキストマイニングについて、その要素技術を示しながら、本研究の文書整理支援システムとの関係を論じている。

 第5章「Fish Eyeマッチング:概念体系に基づく視点を考慮した文書マッチング機構」は本論文の中心となる機構である、概念体系に基づきユーザの視点を考慮して、文書間の関係を見い出すFish Eyeマッチングと名付けた新手法を記している。これまでのベクトル空間モデルはベクトルの各軸(単語)間の直交性を仮定しているため、ある視点から見て共通の特徴と見なせる単語群も、別々に扱われてしまうなどの問題があった。著者によるFish Eyeマッチングは、電子化辞書の概念体系を利用して抽出した意味の類似した単語集合(意味グループ)を基に、ユーザの視点に合わせた特徴を動的に生成してベクトルを構成し、文書間のマッチング度を計算する。Fish Eyeマッチングの名称は、魚眼レンズのように視点として注目度が高い部分は詳細に見て、他は段階的に粗く見ること由来する。背景知識として概念体系を用いることにより、視点に合わせた粒度で文書間の関係を捉えられるだけでなく、ユーザにとってブラックボックスでない操作を可能にしている。

 Fish Eyeマッチング用のベクトル生成演算子として基本としているのは、同じ意味グループの単語を一つの概念用語に縮退させて文書間の大まかな関係を概略視するShrink(縮退)演算と、特定の視点・興味に注目して限定的に詳細な単語レベルまで区別して文書間の比較に用いるMagnify(拡大)演算である。そして、ユーザがこれまでに読んだ文書を自分の興味・視点に関連する文書集合と、関連しない文書集合とに分けて提示することにより、自動的にユーザの視点・興味を反映する単語の意味グループを抽出し、対応するベクトルを構成するアルゴリズムを提示している。これにより、大量の未読文書をユーザの視点・興味に基づいて整理、ソートすることが可能になる。Web上から入手できるオンライン文書データを用い、この効果を実験的に示している。このFish Eyeマッチング用のベクトルの抽出機構の開発は、当初は語の区切りが明確な英語文を対象に行われたが、日本語文についても形態素解析を組み込むことにより可能にしている。

 第6章「文書整理支援システムFish View」では、前章の機構に基づいて開発したFish Viewと称する文書整理支援システムについて記している。本システムは、ユーザがこれまでに読み進めて興味の有無により区分した文書群から局所図解を作成し、視点を整理して提示する。そして、得られた視点を基に大量の未読の文書の中から次に読むべき文書を提示することができる。

 図による表示は、Fish Eyeマッチングによる類似度が閾値を越える文書間にリンクを張って表現している。これにより、ユーザが見落としていた関連文書を見い出すのを助けることができる。抽出した視点の図的表示は、ユーザが意識していなかった視点を気付かせたり、漠然としていた考えの明確化を助けるなど、視点の外化機能も提供することにもなる。システムが抽出した視点情報をユーザが修正、編集する機能もサポートしている。実験により文書整理支援における本Fish Viewシステムの性能、効果を示している。

 第7章は「結論」であり、本論文の成果をまとめている。

 以上を要するに、本論文は"情報の整理を通じた熟読が入手した大量文書の活用につながる"との考えの下に、視点に基づく文書の整理過程の新しい支援法を考案している。ユーザの視点・興味の抽出法として、電子化辞書の概念体系を利用して、ユーザの視点・興味に合わせた粒度で単語の適切な意味グループを構成し、文書を効果的に判別するためのベクトルを自動抽出する方法を示している。このベクトルを用いて文書間の視点に基づく類似性を計算するFish Eyeマッチング法、ユーザの既読文書から得られる視点により大量の未読文書を整理し、次に読むべき文書を提示することを可能にするFish Viewシステムを実現し、その効果を実験的に明らかにしている。ネットワーク等を通じて大量の情報が得られる環境が形成されつつある中で、情報の効率的活用の支援の重要性が増大してきているが、このような新しい支援機能を考案し、システムを作成してその効果を示したものであり、電子情報工学上貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク