本論文では,関係指向の概念形成システムCAFEについて述べる。 このシステムにおいては、概念形成の基となる入力データ、すなわち学習の対象は、個々の対象が持つ属性だけではなく他の対象との関係にも基づいて記述される。また、対象物によって、記述に用いられる属性や関係は異なっていてかまわない。すなわち、現実世界で我々人間が行なっている対象の認識方法に近いものを用いることができる。 したがって、このように記述された対象から概念を形成するシステムは、より実際的で柔軟な概念を作り出すことが期待できる。本論文で述べるシステムCAFEでは、実際に遺伝子地図や植物の病気診断の分野において、対象の記述方法に関する制約の多い過去のシステムに比べて望ましい結果が得られた。 概念形成(Concept Formation)とは、入力される大量のデータを適切に分類するような概念階層を作成することである。(さらに各概念の内包的定義を求めることを含める場合もある。)概念形成においては、個々の入力がどのような概念に分類されるべきかという情報は与えられず、どのような概念階層が適切であるかはシステム内部の評価基準に依存する。 概念形成システムは以下の5点によって特徴付けることができる。 学習するもの 概念の階層。 分類の手法 トップダウン。学習対象は概念階層木の上位にある概念から順に下位の概念に向かって分類がなされていく。 教師 存在しない。 入力例の与え方 インクリメンタル。 学習方法 概念階層空間内の山登り法。 FisherのCOBWEBは、分類の際の評価関数にはっきりしたセマンティクスを与え、アドホックなシステム変数を排除し、またmerge/splitというオペレータの導入で疑似的なバックトラック(ordering effectを回避)を可能にした、などによって非常に実用的になった最初のシステムであり、この分野はCOBWEBによって確立したということができる。 しかしこのシステムでは、学習の対象は属性と値のペアによって記述できるものに限定されていた。その後、構造のような特定の関係を持つ対象などを扱うことのできるシステム等も提案されてきている。 CAFEではさらに一般的に、関係一般を含めて学習対象を記述し、そのような対象を、関係を重視しながら取り扱うことが重要であると主張する。 概念形成の文脈において、関係を重視するとは二つの対象の間の関係によって、そのそれぞれの対象の分類が影響されるということに他ならない。この効果を相互誘導(mutual induction)と名付ける。この効果を得るためには、対象の記述方法を大幅に拡張し、そのように記述された対象を分類するために探索に用いられる評価関数を拡張する必要がある。具体的には、 1.対象記述に用いられる属性は、対象によって異なる。この結果、さまざまなタイプの対象を同時に扱うことができる。たとえば対象とその部分構造は記述形式が異なることになるが、両者を同時に同等に分類し、概念階層に統合する。 2.記述に用いられる属性として、値として他の対象をとるものをも許す。つまり、他の対象との関係も記述属性として用いることができるものとする。 3.複数の概念の類似度の指標を与える評価関数を提案する。これによって他の対象を指すような属性についても、単純な値を持つ属性と同じように取り扱える。 このような拡張の結果として、対象Aが関係を示す属性の値として他の対象Bをとる場合、Aが属性値としてBを持つことによる影響と、Bが属性値としてAを持つことによる影響が対象Aの分類に反映されることになる。この結果、たとえばAが属性値としてBを持つことによる影響だけを考えて形成される概念階層とは異なったものとなる。 このようなシステムを計算機上に実現して実験した結果、関係指向の概念形成システムは、学習対象領域を広めるばかりではなく、学習効率も向上させることが明らかとなった。 これは、本システムが例の概念階層への分類に、対象相互の関係による影響を積極的に利用していることの直接の結果である。 工学的応用としては、他に自然言語処理における知識の獲得や既存辞書からの知識体系の自動作成のようなものが考えられる。それらの問題領域においては、事例の記述に当たって個々の事例を直接記述する単純な属性の群を選び、その値を得るよりも、事例が他の事例とどのような関係にあるかを記述する方が容易である。本システムの本質的な効用はこのような領域に在る。 以下に論文の章立てと各章の内容を述べる。 第1章では、本研究の目的と概要を述べた。 第2章では、概念形成に関するこれまでの研究についての調査を行ない、その文脈のもとでCAFEの位置付けを行なった。これまでの研究は ・学習対象間の複雑な関係を扱うことができない。 ・部分構造を扱う場合にも部分から全体へといった一方向的な影響しか考慮されておらず、その結果として部分構造に分かれた属性間の相関が無視される等充分に関係情報が活用されていない。 といった点に問題を残している。 第3章では、これらの問題を解決するために如何にシステムを設計したかを述べた。その中では、まず問題の定式化を行ないシステムのタスクを明確にした。つづいてシステムの設計の詳細を、知識の表現方法、学習アルゴリズム、評価関数について説明した。CAFEは、 ・学習対象中に関係一般を記述できる。 ・関係によって、その双方の分類が影響される。 という二点において既存のシステムと大きく異なっている。これらを実現するために、関係を持つ対象を分類するための相互誘導という学習アルゴリズムの開発ならびに、関係を持つ対象の分類結果を利用するための新たな評価関数の提案を行なった。 第4章では、前章で設計したシステムを具体的にいかに実装するかについて、知識の表現方法、学習アルゴリズム、評価関数、の観点から論じた。CAFEはCommon Lispで書かれたコンパクトかつ可搬性の高いシステムとして実装されている。 第5章では、システムを評価するために行なった実験について述べた。実験1では人工的な学習領域において、対象間の関係を扱うCAFEがそれを扱わないシステムに比べ高い学習能力を持つことを示した。実験2では現実の学習領域(DNAシーケンス)において、CAFEの相互誘導アルゴリズム及び概念類似度の評価関数が、他のやはり構造情報を扱うシステムに比べてもより有効であることを示した。実験3,4では再び人工的な学習領域において、雑音がシステムの学習能力に与える影響を調べ、CAFEは学習対象の関係情報を扱うことにより雑音に対しても強いことを示した。 第6章では、CAFEがどのような問題を解決したか、CAFEをより一般的な領域に適用可能にするうえでどのような拡張の可能性があるかについて述べた。 第7章では本論文の結論について述べた。 |