学位論文要旨



No 119534
著者(漢字) 友部,博教
著者(英字)
著者(カナ) トモベ,ヒロノリ
標題(和) 知識共有システムにおける知識の獲得・加工・管理に関する研究
標題(洋)
報告番号 119534
報告番号 甲19534
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第15号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 教授 近山,隆
 東京大学 教授 坂井,修一
 東京大学 助教授 伊庭,斉志
 東京大学 助教授 黒橋,禎夫
内容要旨 要旨を表示する

コミュニティにおいて、我々は多くの知識を持っている。自分の持っている知識を互いに共有することによって、より有益な知識を獲得することができる。この知識の共有という機能をより発展させるためには、決められた表現で記述された知識だけでなく、コミュニティにおける背景知識のような明確でない知識も共有できるような効果的な知識共有システムを構築する技術が必要である。Web上の情報もこういった知識共有システム構築のための重要な情報基盤となっている。本論文ではWeb環境における知識共有システムのための基礎技術に関する研究について述べる。

本論文は2部で構成されている。第1部では、自然言語で記述された膨大な知識を活用するためのアプローチとして、KRNLと呼ばれる知識表現について記述している。次に第2部では、コミュニティにおける背景知識として人間関係をWeb上から抽出する手法と知識共有システムにおける利用法について述べる。

第1部では、KRNLについて述べる。これは、テキストで記述された知識の高次利用ができる新しい知識表現法である。

近年の計算機技術の発展によって、我々はWeb上から膨大な情報を得ることのできるようになった。その中でも特に多いのが自然言語で記された情報である。我々は一つの文書から望む情報や知識を得ることができない場合には、検索エンジンを用いて関連するいくつかのページを集め、それを組み合わせて知識を獲得する。しかし、検索結果で提示される文書が多数であるため、同じような情報を何度も読まなければならないなどの不都合、非効率性が生じる。このような場合、冗長な情報を削除し、ユーザの要求に関連する情報を統合したものを提示できれば便利である。

Web上の情報は、個人の記述したものから、組織により記されたものまで、非常に雑多な自然言語文書が混じっている。これらを統合するには、何らかの枠組み(知識表現)を導入し、それに従った規則で知識を記述する必要がある。まだ同様に、複数ユーザからの知識入力を想定した知識共有システムも、同じことが言える。知識を入力するユーザは各々意図を持っているわけだが、この意図に従って自分勝手に知識を入力するのではなく、システムの仕様に法った知識入力を行うことで有効な知識共有が行われるのだ。つまり、複数ユーザによる知識共有システムを実現することが、文書統合への必要条件となる。

知識共有システムでは、複数のユーザから大量の知識が入力されることになる。その中からユーザの要求に合致する知識を探すことになるのだが、既に入力された知識だけではユーザの要求に答えることができない可能性もある。しかし、さらに複数の知識を組み合わせることによって発見できる場合がある。よってこのような知識共有システムでは、ユーザの要求を満たす知識を発見できるように、持っている知識を複数組み合わせることが必要となる。

述語論理は式で表現された知識を組み合わせることによって推論する枠組みである。堅固な基礎に立脚する論理は、重要な知識表現の一つである。

また、論理は数学的基礎に立脚する広い範囲をカバーできる汎用的知識表現であるという特徴を持っている。論理は、述語や引数を自由に設定することができるということである。そのため述語論理は、自然言語からの知識を表現する重要な枠組みとなっている。

しかし、自然言語文を論理に変換する場合、表現が一意に定まらないという問題がある。述語を何に設定するか、また引数の数をいくつにするか、その引数の並べ方をどうするかなどに任意性が生じる。同じ知識であってもこの任意性によって表現が変わってしまい、知識の組み合わせによる推論が正しく行うことができない。

特に複数ユーザによる知識共有においては、表現が統一されないことが多い。同じ知識であっても、ユーザによって表現が異なる場合がある。また同一ユーザが変換する時でさえ、表現が一つでないことがある。

なぜこのような任意性が起るのだろうか。これは自然言語文で記された知識に対し、どの観点を軸にして述語表現に変換するか、ユーザによって異なるためである。例えば、「柴犬が通行人にかみついた」という自然言語文があるとしよう。あるひとは、「かみつく」という行動に観点を置き「かみつく(柴犬,通行人)」と書き、また別の人は「柴犬」という動作の主体に観点を起き「柴犬(かみつく,通行人)」と記述するかもしれない。すると、この自然言語で記された知識を他の知識と組み合わせて推論するには、述語「かみつく」に関するルールと、述語「柴犬」に関するルールを完備する必要がでてくる。冗長なルールが増加することは推論処理にかかる時間が増大し、またルールを記述するコスト(時間や労力といったユーザの負担)も増してしまう。よって知識共有のためには、自然言語文で記された知識を述語表現に変換する際に観点について考慮しなければならないのである。

ここで導入する知識表現KRNL(Knowledge Representation for Natural Language)は、自然言語文で記された知識を「二つのフレーズと、それを結び付ける関係」という観点で述語を数種類に絞って表現したものである。そしてその述語に従って、引数の数も限定している。論理との関係で言えば自然言語との対応の良い形で論理のサブセットを切り出したものであり、論理と同様な推論を行わせることができる。

述語と引数を絞ることは、述語論理における任意性を解消することにつながり、複数ユーザによる知識入力における表現を統一することができる。表現を統一することで、それらの知識を組み合わせて推論を行うことができる。しかし、述語と引数を絞ることによって、推論処理において本来は個別の知識であるはずのものが統一されてしまうという欠点がある。また、述語と引数を絞り込むことである特定のドメイン特有の述語表現になってしまう。この場合には表現できない知識が増えるため、他のドメインでは利用できないという汎用でないものになる。また、ユーザは知識のドメインが変わるごとに、そのドメインに応じた知識の表現法を学ばなければならない。

本論文で提案するKRNLは、人間が自然言語で思考する時に用いる基盤的背景知識に注目して述語と引数を絞り込むことによって、自然言語文で記された知識ならばどのようなドメインでも利用することを可能にした汎用の知識表現である。また、自然言語との対応の良い形で表現されているので、ユーザは一定の規則(表現法)を学べば専門家でなくとも自然言語からKRNLへの変換が任意性少なく行うことができる。逆にKRNLの表現は直接的に自然言語として解釈することができ、変換は容易に行うことができる。

第1部では、KRNLを用いることで新しい知識共有の道が開けることを示す。

第2部では、コミュニティにおける背景知識として人間関係をWeb上から抽出する手法と知識共有システムにおける利用法について述べる。

我々は現実世界においても、またはWeb上のオンラインの世界においても多種多様なコミュニティに存在している。そのコミュニティは、大学の一研究室の様に数名から十数名ほどで成り立つ小さいものから、何千人という会員を抱える学会などの学術組織まで、様々である。そのコミュニティにおいて、人間関係は所属するメンバーを特徴づけるのに大きな役割を持っている。たとえば、コミュニティの中心人物ならば彼の発言は他のメンバーに大きな影響を与えるものになるだろう。またコミュニティがいくつかのクラスタに分かれていれば、それが同じ興味を持つ集まりであることを知ることができる。

人間関係を知っていればコミュニティにおけるコミュニケーションも活発にすることができる。たとえば、コミュニティにおける友人の重要度について知ることができる。また、あまり面識のない人物と出会ったとき、自分とはどのような人間関係でつながっているのか知ることができる。

このようなコミュニティの中で、学会は次のような特徴を持っている。 Web上で獲得できる情報が多い(特に、情報科学系の学会) 研究者は個人個人の線引きが明確である 研究活動を効果的に進めるにおいて人間関係が重要である

そこで、我々は最初の対象として学会組織を選んだ。特に、学会における有益な出会いを対象としている。

第2部では、学会における人間関係を自動的に抽出する手法について提案する。この方法は、従来の社会学において多くの質問から人間関係を抽出するのではなく、Web上の情報を探索することによって人間関係を抽出する。人間関係を考慮することによって、我々は人間関係ネットワークを構築する。この人間関係ネットワークにおいて、ノードはコミュニティ内のメンバーを表し、エッジは二人の人間の人間関係を表すことになる。また、エッジに付加されたラベルは、人間関係の種類を表している。このネットワークによって、我々は二人の間の関係の情報を知ることができる。

このシステムは実際に400人規模の学会の全国大会おいてサービス運用された。

審査要旨 要旨を表示する

本論文は「知識共有システムにおける知識の獲得・加工・管理に関する研究」と題し,WWW(Web)等により情報や知識の流通,蓄積と共有が大域的に進展するにようになった情報環境において,知識共有を促進するための2種の基礎技術の研究を第I部,第II部に分けて記している.

第1章の「序論」では,本研究の背景と概要について記している.

第I部は「知識表現KRNL」であり,研究開発したKRNL(Knowledge Representation for Natural Language)について,第2〜4章に記している.

第2章は「知識表現KRNLの狙いと経緯」である.Web等での情報/知識の流通,蓄積では自然言語文が主要な媒体となっており,検索エンジン等によりその高度な検索は可能になりつつあるものの,そのままの形態では多数の人々から提供される複数知識要素を組合せ,連鎖的推論を行わせて答えを導くといった高次利用が図れない.自然言語文を述語論理表現することは,一定程度可能であるものの,何を述語記号にするか,何を引数にするかなどの任意性があり,一意に表現が決まらない.これでは知識を組合せて推論することは困難であり,多数の人々によって知識が記述されることを想定すると,この表現の任意性の問題は一層大である.

KRNLに先行する研究として,化学者の木本協司氏が分子結合の化学反応と自然言語的推論の類似性に着目して1997年に創案した概念化学プログラミング,及びこの実現を考慮して著者等が設計して2000年にLispにより処理系を実装したCCR(Concept Chemical Representation,概念化学表現)がある.CCRは述語論理に加えて+αの部分を持ち,推論の完全性の保証が得られなかった.KRNLはCCRを基にしながらも,自然言語に適合する表現で,かつ述語ホーン節論理のサブセットに収まるように設計した知識表現である.加えて,自然言語に内在する推論規則を予め内蔵している.述語ホーン節論理のサブセットとしたのは,推論の完全性を保証するためであり,このために現行バージョンでは,扱える表現の幅は時制が現在形で表される客観的記述に制限される.以上より,自然言語文からKRNLへの変換はほぼ一意となり,知識の統合的利用が可能になる.

第3章「知識表現KRNLを用いた知識表現と推論の例」では, KRNLの表現形と推論能力を提示するために,まず最初に例を示している.具体例としては,ハンドブックのある章の記述をKRNL化した知識ベースなどを示している.

第4章「知識の表現と関連研究」では,知識表現の基礎として述語論理,意味ネットワーク,フレーム,プロダクションシステム,及び自然言語文に適合する知識表現に向けての関連研究として,名詞句,動詞句,限定詞の包含関係に着目したUNO representation等を挙げている.

第5章の「知識表現KRNLの表現と推論」では,KRNLの表現と推論の基礎を記している.表現の基礎として,単語に相当する原子概念,原子概念に修飾語を付加した分子概念,分子概念間を結びつける概念関係,概念関係によって結ばれた分子概念で構成される概念関係式を示している.この他に変数,論理演算子も含まれている.KRNLでは概念関係式が知識の一つの単位となる.KRNLの推論は,同じ分子概念を共有する概念関係式が縮合することによって行われる.この縮合時に二つの概念関係が一つに縮合するのだが,自然言語文の背後にある意味を反映して,その縮合ルールが規定される.この典型例には上位下位概念関係(ISA関係)による性質の継承がある.この概念関係式の縮合により,KRNLでは複数知識要素に渡る連鎖的推論が実行される.

第6章「知識表現KRNLの論理への変換」は,KRNL現バージョンでは推論の完全性を保証するために,1階述語ホーン節論理に適合する設計方針を採っていることから,KRNLの1階述語ホーン節論理への具体的な変換法を示している.この意味で,KRNLは述語論理の表現の自由度を自然言語文表現に適合するように制限し,述語論理表現に際する任意性を排除したものとも解釈できる.

第7章「知識表現KRNLの実装」では,KRNLのPrologによる実装法を示し,実装したシステムでの具体例を示している.

第8章は「KRNLに関する議論とまとめ」である.自然言語文からKRNLの変換は意味理解が必要で完全自動化は困難であることから,可能な複数の変換例を提示し,人間に選択してもらう形式の半自動変換支援ツールが有効であるとし,これを作成している.一方,KRNLから自然言語文への変換は自動的に行える.KRNLの今後の課題として,1階述語ホーン節論理のサブセットに収まるように設計された現バージョンでは除外され扱えない時制と様相の表現,単語標記の揺れに対処するための類義語辞書との結合を挙げている.

第II部は「Webからの人間関係ネットワーク抽出」であり,第9〜13章で構成されている.

第9章「人間関係ネットワークの目的と関連研究」では,コミュニティでの知識共有を促進するために,人間関係ネットワークの提示が効果的であり,社会の情報蓄積の膨大なベースに成長したWebからの抽出が有効であることを述べている.そして関連研究として,Referral Web等における人間関係抽出を挙げ,本研究との主な違いは,同一Webページにおける人名の共起を活用することと,関係の種別も抽出する点であるとしている.

第10章「人間関係ネットワークの抽出法の基本手法」では,Webからの人間関係抽出の基本手法について記している.2名の人名の同一Webページの共起を検索エンジンで求め,共起の強さを測る測度として共起頻度,Jaccard係数,Simpton係数等について検討し,考案した閾値付きSimpton係数が有効であることを見出している.同姓同名への対処法も示している.人名をノードとし,関係が認められるノード間にエッジが張られ,ネットワークが構成されることになる.関係の種別を表すエッジラベルの抽出は,研究者のコミュニティを主たる対象にした場合について,Webから共著関係,同一研究室関係,同一プロジェクト関係,同一研究会や国内外会議で発表した関係について求める手法を考案している.

第11章「人間関係ネットワークの表示」では,グラフィカルに表示するインタラクティブ・インタフェースを作成し,実際に2003年の人工知能学会全国大会(JSAI2003,於:新潟市)で運用した実績を記している.

第12章「人間関係ネットワークの評価」では,JSAI2003でのシステム運用における,抽出されたエッジラベルの精度,各測度を用いた時のエッジの関係性について実験的データを示し,また使用者からのアンケートも回収して,評価している.

第13章は「人間関係ネットワークに関する議論・結論」である.

第14章「結論」は本論文全体のまとめである.

以上を要するに,本論文はWebを中心にして,情報や知識の流通,蓄積と共有が進展するようになった情報環境において,知識の共有促進に向けた2種の技術を提示している.その第一は,自然言語文で記された知識を知識化するための,自然言語表現に適合したKRNLと称する知識表現・推論形の提案と実現であり,これによって多数の人々からの知識の統合を可能にし,複数知識要素の組合せによる連鎖的推論を可能にしている.第二は,情報や知識の共有を効果的に行えるようにするための,コミュニティにおける人間関係をWebから抽出・提示する方法である.これらの実現したシステムは部分的ではあるものの,実際のデータを用いて効果を実証しており,電子情報学上貢献するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク