学位論文要旨



No 111234
著者(漢字) 鍾,寧
著者(英字) ZHONG,Ning
著者(カナ) ショウ,ネイ
標題(和) データベースからの知識の発見に関する研究
標題(洋) A Study on Knowledge Discovery in Databases
報告番号 111234
報告番号 甲11234
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3478号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 教授 大須賀,節雄
 東京大学 教授 石塚,満
 東京大学 教授 河内,啓二
 東京大学 教授 佐藤,知正
 東京大学 教授 渕,一博
 東京大学 助教授 堀,浩一
内容要旨

 本研究は知識ベースとデータベースの統合利用環境においてデータベースから自動的に知識を発見する問題について研究を行い、知識ベースシステム開発ツール-KAUSを用いてデータベースから知識を発見するための方法論/システム-GLS(Global Learning Scheme)を構築している。本研究は最近世界的に注目されている「データベースにわける知識発見」(KDD-Knowledge Discovery in Databases)という人工知能の重要な研究のトピックに属している。今日の社会ではさまざまな分野にデータベースを応用する需要が増えている反面、各分野に応用されたデータベースを分析することによってデータベースに隠れている知識を発見するためのエキスパートが不足しているのが現状である。従って、自動的にデータベースから知識を発見する能力を持つ新情報処理システムの役割が重要になっている。KDDとは、一言で言えば、データベースにある"生"データや一見したところ無秩序に見えるデータから有用な知識(ルール、属性間の因果関係等の規則性)を見いだして、人間の発想、発明、設計、意志決定、予測推定などの知的な活動を支援することに関する研究である。

 一般的に言えば、発見とはある未知の事実に遭遇した人間が、その事実を説明する仮説を作り、それを検証する思考過程である。言い替えれば、発見とは教師なしで人間(または機械)が知識を獲得するという学習の形態である。科学的発見の手段は大分類すれば、理論駆動型とデータ駆動型があるが、科学技術史での発見はデータ駆動型のほうが多い(例えば、天文学でのケブラーの第3法則や物理学でのボイルの法則などの発見)。人工知能においても発見、発明するシステム(特に自律性が高く、汎用性があるもの)を作ることが、人工知能研究の歴史の発端からの研究者の夢であり、そして最も難しい研究領域である。KDDはいわゆる「発見」の問題であるので、この研究の重要性と難しさは十分予想されることである。

 本研究で構築しているGLS発見方法論はデータベースからの知識発見の特性や問題などを考える上で、大須賀によって提案された「一般問題解決モデル」を基にし、データベースからの知識発見の問題へ応用したものである。つまり、データベースからの知識発見の過程は初期仮説生成、評価、精密化の過程である。GLS方法論の核はデータベースからのグローバルな学習スキーマである。知識ベースとデータベースの統合利用を中心として、汎用化の要求及び知識の発見と管理の統合に基づいて、データベースからのグローバルな学習スキーマを大分類するなら、準備と前処理、知識抽出、知識の精密化・管理という三つの学習の段階に分けられ、これらの各段階で多面的データ分析及び多段階の学習や概念抽象を行う。

 GLSでの「発見/学習」とは、ユーザの要求によってデータベースから知識を発見するだけでなく、動的に発見プロセスの組織化、発見プロセスの制御と性能改善なども行う。知識ベース(ルールベース)を用いて処理が行われたGLSシステムはすべての知識(ルール)が多重世界のメカニズムによってマルチレベルに分けられて管理される。また、知識世界を大分類すれば、静的世界と動的世界に分けられ、GLSの各学習段階で動的な知識の組織化・生成が必要とされる。組織化は発見の目的に応じて動的に発見プロセスの組織化及び知識抽出と精密化・管理や利用の統合の要求を満たすために必要になる。つまり、発見の目的に応じて、資源の有効利用や多段階で連続及び並列的処理できる発見プロセスを動的に構成するために、GLSは自己組織化の機能が必要である。一方、GLSの知識ベースが必ずしも完全ではなく前もって与えられていない知識(ルール)がある。例えば、もし知識発見の時に利用すべきデータを収集するためのデータベース検索やデータ整理に関するルールなどが不足していたら、まずこれを生成せねばならない。このようなルールはユーザとの対話に従って、或は推論と学習によって、動的に生成され、この生成されたルールを使って、推論を続けて行う必要がある。また、データベースから知識を抽出(発見)する前には、この抽出される知識がどのような形式になるか、またはどのように精密化・管理されるかは分からない。獲得された知識と元のGLSの知識ベースにある知識を融合して、精密化・管理を行い、これを利用できるようにするためにも、生成・組織化の機能が必要である。

 GLS方法論を基に開発したGLSシステムの開発方針は、所要の機能を有する幾つかのサブシステムを用意し、それらサブシステムが統合的に利用できるようにすることである。例えば、GLSでは二つの発見サブシステム-「分割に基づく帰納法」(DBI-Decomposition Based Induction)と「知識指向統計推論法」(KOSI-Knowledge Oriented Statistic Inference)を利用してデータベースから初期仮説を発見することができ、更に、その二つの発見サブシステムにつながる精密化・管理サブシステム-「階層モデル学習法」(HML-Hierarchical Model Learning)と「継承推論に基づく精密化法」(IIBR-Inheritance Inference Based Refinement)を利用して、初期仮説を精密化・管理することができる。つまり、GLSシステムは多戦略発見システムである。図1はGLSシステムの機能について概念的にまとめている。

図1:An overview of the GLS system

 DBI法はデータベースの属性間の依存関係に注目して、分割に基づく帰納により、データベースから「概念クラスター」を発見するものである。DBI法はSimon-Andoらが経済分野で応用した「近似完全分割法」を基に開発した方法である。「近似完全分割法」に次の幾つかの拡張と変形を促すことによりデータベースの近似分割法が得られる。(1)教師付き学習としてのクラスに基づく対角化。(2)教師付きでない学習としての最尤分割による対角化。(3)ノイズ(出現の確率値が小さいデータや矛盾するデータ)を削除しながらの分割。データベースの近似分割法の一番重要な特性はノイズデータを分析/削除しながら概念クラスターまたはサブデータベースを形成することである。データベースを分割するために、DBI法では事例空間、確率空間、学習空間という三つのデータベースの空間を定義している。事例空間とは対象問題に関する事例データを記述する空間、確率空間とは対象問題に関する事例データの確率分布を記述する空間、学習空間とは事例空間と確率空間の変化と学習状態を記述する空間である。特に確率空間はデータベースの分割の時に使われる。即ち、事例空間から生成された確率空間の実体である確率分布行列に対して、分析、評価、近似分割によって、幾つかの概念クラスター或いはサブデータベースが求められる。この三つのデータベース空間の概念はDBI法による新しい概念の一つである。伝統的なデータベースと異なり、この三つのデータベース空間の存在によって、対象問題に関する事例データだけでなく、事例データに対する特性分析、概念説明、事例間の関係、事例の変化状態などのような事例データに関するデータ(情報)も得ることができる。

 また、DBI法を実用化するために、次の三つの補助的な技術も開発した。一つは属性に基づくクラスタリング(概念抽象、連続値の離散化など)である。これは確率空間を生成するための前処理の一つである。これによって、それぞれの属性値に対して概念抽象、連続値の離散化等が行なわれる。また、背景知識を使うかどうかによって、背景知識に基づくクラスタリングと連続値の範囲の分割による離散化という二つの方法がある。第二は学習空間による知識の精密化である。学習空間によって、確率空間に対する制御、説明、学習のための確率分布と誤差を記録し、データベースの摂動問題を処理する。学習空間によって、分割された結果はデータの小さい変化に影響されないようになる。即ち、データの変化が許される最大誤差以内にあれば、学習空間に記録するだけて、分割されたデータベースは変わらない。データの変化は分割されたデータベースに対して、誤差の増加と減少の可能性が両方あるため、これは合理的な方法である。従って、データの変化によって、まず、学習空間で誤差を記録して、誤差の蓄積が誤差制限上界を越える場合は分割されたデータベースを修正する。第三は確率分布行列の生成における学習及び性能改善である。確率分布行列は確率空間の実体であり、DBI法の主な操作対象である。従って、確率分布行列の性能がDBI法による発見された知識の良さと発見過程の計算量等に対する重要な鍵となる。データベースの複雑性と大規模性などを考え、計算量の爆発など全防ぐために、確率空間を生成する時に、知識ベースの支援によって確率空間の性能を改善することが必要である。また、データベースの属性は互いに無関係でなく、ある背景知識に基づいて属性間にある関係が成り立つ可能性がかなり大きい(例えば、関数関係、等価関係、類似関係など)。従って、属性間に幾つかの明確な関係が存在する場合、その中の一つを選択して、それ以外の属性との間の確率分布行列を生成する。そして、確率分布行列を生成する時に利用されなかった属性も、確率分布行列を用いた分割の結果と知識ベースを利用して推論によって導出することができる。

 一方、KOSI法はデータベースの属性間の関数関係に注目して、AI手法と統計推論の統合利用により、データベースに収集されたデータに隠れている「構造特性」を発見するものである。KOSI法を開発する重要な背景にBACON、FAHRENHEIT、ABACUSなどの科学発見システムがある。ただし、KOSI法では、次の幾つか拡張がなされている。(1)不完全性と曖昧性を含むデータも処理することができること。(2)特定の分野でなく、一般的な属性間の関数関係を発見することができること。(3)精密な関数関係を発見するだけでなく、近似的な関数関係も発見することができること。以上の拡張のために、KOSI法では"生成-評価"の過程を使っている。まず、生成の段階ではモデルベース及びメタレベルの制御を基に、発見的知識及び問題領域に依存する背景知識を用いて新しい属性を見つける。即ち、それらの知識を用いて探索空間を制限することにより、定性/定量的属性演算を行ない、属性間の関数関係を発見し、新しい(仮定の)属性及びデータベースを動的に生成する。この段階で用いられる発見的知識は二種類ある。一つはBACONなどで用いられた発見的知識を拡張したものである。もう一つは定性数学、定性推論を基に開発したものである。この際、データベースの大規模性に対応するために、区間演算やクラスタリングの機能が活用されている。次に、評価の段階では次の二つの機能がある。一つは、生成段階で幾つか仮定的な関数関係を見つけた場合に、統計の手法(例えば、回帰分析)を用いてそれを評価することによって、最も良い関数関係を選択すること、もう一つは生成段階で作成された新しい属性を含むデータベースに対して属性間の近似的な関数関係を統計の手法により再度みつけることである。この段階ではメタ知識を用いて統計推論を制御する。即ち、ルールによって表現された知識を用いて統計の戦略と方法を選択し、統計処理の過程を制御する。

 一般的に言えば、データベース中のデータは不完全であり、あいまい性があるので、データベースから発見された知識は仮説と呼ばれる。また、データの追加、修正、削除によって仮説も変化する。従って、データベースからの知識発見の過程は仮説の構築と精密化(評価・修正)の過程とも言える。従って、発見された初期仮説に対して、どのように精密化と管理をするのが良いのかということも重要な問題である。HML法とIIBR法はこのための方法である。

 HML法を開発する重要な背景として多層論理(MLL)や情報理論がある。HML法の開発の基礎は多層論理によるモデル表現(「構造+機能」の表現)である。即ち、情報理論(エントロピー)を用いて多層論理式の持つ情報量を定量的に評価する。この評価の過程を効率的にするために、HMLの理論的な基礎とするMLL式を持つ情報量に関する三つの定理(MLL事後濃度の補足、MLL情報量の等価、MLLの包含)を開発した。更にこの三つの定理を用いて効率的なアルゴリズムを実現した。

 DBI法につながるHML法は主に次の三つの機能を持つ:(1)知識ベースに知識を生成する。即ち、DBI法により発見された「概念クラスター」を自動的に階層構造化し、多層論理式(MLL)によって表現して、「階層モデルを持つ分類知識」として知識ベースに加える;(2)生成された知識を精密化する。即ち、データベースにあるデータの変化または背景知識を基に、多層論理式によって表現されている「階層モデルを持つ分類知識」の持つ情報量の評価によって、自動的によい階層モデルを選択して精密化する;(3)生成された知識を管埋する。即ち、メタレベルの制御を基に、まず、データベースから発見された階層モデル族をISA階層を表す集合チェーンに保存した後、評価と精密化のメカニズムを用いて精密化し、次に、階層モデル族の継承グラフを用いて、階層モデルの履歴を管理する。

 これと対応するものとしてKOSI法とつながる精密化と管理のためのIIBR法が開発された。IIBR法を開発する重要な背景としてKAUSのメタ推論と多重世界の機能や回帰モデルの継承推論がある。KOSI法においてはデータベースから発見された「構造特性」を表す回帰モデルは「特性知識」(ルール)中の核の部分であるので、「特性知識」間の継承関係は「特性知識」中の構造特性を表す回帰モデルの継承関係になる。継承推論は人工知能の世界で重要な推論の一つである。回帰モデルに応用すれば、下方への継承、上向きの継承、横の方への継承、対角の継承、類似の継承等の幾つかの継承関係が考えられる。一方、これらの種類の継承関係の強さを定量的に評価することができるようになるために、これらの種類の継承関係の数量化は重要である。この数量化の方法の一つは誤差分析である。多層論理の展開及びメタ推論と多重世界の機能を基に、この誤差分析を用いて、データベースから発見された「特性知識」の継承関係を調べることができるようになる。

 IIBR法ではKAUSのメタ推論と多重世界の機能を用いた精密化の手法を用いて、「特性知識」(ルール)の継承関係の管理を行う。IIBR法は主に次の四つの機能を持つ:(1)知識ベースに知識を生成する。即ち、KOSI法により発見された構造特性(関数関係)を特性知識(ルール)として知識ベースに加える;(2)回帰モデルの変化量を推定する。即ち、データベースにあるデータを変化した場合、メタと背景知識及び数量化の誤差分析法を利用することによって、回帰モデルの変化量を推定する。(3)回帰モデル族を管理する。即ち、メタレベルの制御を基に、生成された「特性知識」を集合チェーンに保存した後、評価と精密化のメカニズムを用いて精密化し、次に、回帰モデル族の継承グラフを用いて、「特性知識」の履歴を管理する。(4)回帰モデル族から利用すべきモデルの選択。即ち、ユーザの要求に応じて、メタと背景知識及び逐次判別分析法を利用することによって、回帰モデル族から利用すべきモデルを選択する。

 本研究ではGLS発見方法論を提案して、更にGLS発見方法論に従ってGLS発見システムの幾つかのサブシステム:「知識指向統計推論法」(KOSI)、「分割に基づく帰納法」(DBI)、「階層モデル学習法」(HML)及び「継承推論に基づく精密化法」(IIBR)を実現してきた。また、それぞれの方法を医療分野の胸癌を診断するためのデータベース、動物学に関するデータベース、経済分野のデータベース、農学に関するデータベース、宇宙科学に関するデータベース、材料データベースなどに応用して、そのテストを行っている。

 しかしながら、GLSは非常に大規模、複雑なシステムであるので、本研究では「データベースにおける知識発見」のための基礎研究であるとしかいえない(即ち、発見プロセスの自律性を増大させるための発見方法論及び多戦略発見システム構築法に関する研究である)。実用化するまではまだ多く研究課題が残っており、時間を要する。今後、GLSの主な部分の開発に続き、実用化の問題として知的ユーザインタフェースや分散処理機能を持つ発見システムの開発、発見から発明までの支援(設計支援システム、発想支援システムとの統合)などが重要な課題となっている。

審査要旨

 先端学際工学専攻博士課程を在学している鍾寧提出の論文は、"A Study on Knowledge Discovery in Databases"(データベースからの知識の発見に関する研究)と題し、8章からなっている。

 本研究は最近世界的に注目されている「データベースにおける知識発見」(KDD)に関するものである。今日の社会ではさまざまな分野にデータベースを応用する需要が増えている反面、多くの分野でデータベースを分析することによってデータベース内に隠れている知識を発見するためのエキスパートが不足しているのが現状である。従って、データベースから自動的に知識を発見する能力を持つ新情報処理システムの役割が重要になっている。一方、人工知能においては発見、発明するシステム(特に自律性が高く、汎用性があるもの)を作ることが、当初からの研究者の夢であり、そして最も難しい研究領域である。KDDはいわゆる「発見」の問題であるので、この研究の重要性と難しさが認識されているにも関わらず、多くの未解決課題が残されていることも事実である。

 本研究は知識ベースとデータベースの統合利用環境においてデータベースから自動的に知識を発見する問題について研究を行い、知識ベースシステム開発ツール-KAUSを用いてデータベースから知識を発見するための方法論/システム-GLSを構築している。

 第1章は序論であり、まず研究の背景と動機を述べ、次に研究の目的とねらいを記している。

 第2章では、GLS発見方法論について詳解し、研究の位置付けを明らかにしている。まずGLS発見方法論を開発する背景と目的、発見に関する概念と用語を説明し、次に、データベースからの知識発見の特徴と問題点について議論している。それらの議論をふまえて、本論文では、GLS発見方法論を提案している。本研究で構築しているGLS発見方法論はグローバルな学習スキーマ(GLS)を核として、初期仮説生成、評価、精密化の発見過程を支援し、多面的データ分析及び多段階の学習や概念抽象を行なうものである。また、本章の最後はGLS方法論を基に開発したGLSシステムの開発方針と多戦略発見システムを概念的に説明している。

 第3章では、関連する研究の概要を述べながら、本研究と比較し、以前の研究の問題点を検討している。

 第4章から第7章までは、GLSのそれぞれのサブシステムを詳説している。まず第4章では、「分割に基づく帰納法」(DBI)について記している。紹介されているDBI法はデータベースの属性間の依存関係に注目して、分割に基づく帰納により、データベースから「概念クラスター」を発見するものである。まず、DBI法が理論的な背景とする近似完全分割法を概説し、近似完全分割法に幾つかの拡張と変形によって得られたデータベースの近似分割法を詳説している。次に、DBI法を実用化するための幾つかの補助的な技術を説明している。

 第5章では、DBI法につながる「階層モデル学習法」(HML)について記している。紹介されているHML法はDBI法によって発見された概念クラスターを精密化し、管理するための方法である。まず、HML法の理論的な基礎とする多層論理式に含まれる情報量に関する三つの定理(多層論理事後濃度の補足、多層論理情報量の等価、多層論理の包含)を述べ、この三つの定理を用いて効率的なアルゴリズムを述べている。次に、HML法の三つの主な機能を例を使って詳説している。

 第6章では、「知識指向統計推論法」(KOSI)について記している。紹介されているKOSI法はデータベースの属性間の関数関係に注目して、AI手法と統計推論の統合利用により、データベースに収集されたデータに隠れている「構造特性」を発見するものである。まず、KOSI法を開発する背景を述べ、KOSI法の構造などを述べている。次に、KOSI法の機能として、定性/定量的属性演算、メタ制御を用いた統計推論、区間演算やクラスタリングなどを詳説している。

 第7章では、「継承推論に基づく精密化法」(IIBR)について記している。紹介されているIIBR法はKOSI法によって発見された構造特性を精密化し、管理するための方法である。まず、IIBR法を開発する背景を述べ、回帰モデルの五種類の継承推論を定義し、継承関係の強さを定量評価の基準を導入している。次に、IIBR法における知識表現法、精密化アルゴリズム、回帰モデル族の管理などを詳説している。

 第8章は結論であり、研究の総括と今後の課題などが述べられている。

 以上を要するに、本研究は、GLS発見方法論を提案して、更にGLS発見方法論に従って、多戦略発見システムとするGLSの幾つかのサブシステム:「知識指向統計推論法」(KOSI)、「分割に基づく帰納法」(DBI)、「階層モデル学習法」(HML)及び「継承推論に基づく精密化法」(IIBR)を実現してきた。本研究には多くの独創的なアイデアが含まれており、また、それぞれの方法を医療分野で胸癌を診断するためのデータベース、動物学に関するデータベース、経済分野のデータベース、農学に関するデータベース、宇宙科学に関するデータベース、材料データベースなどに応用している。これらにより、知識工学及びデータ工学上貢献するところが大きい。よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク