学位論文要旨



No 115683
著者(漢字) 葛,錫金
著者(英字)
著者(カナ) ゲ,シジン
標題(和) 冗長性圧縮によるデータベースからの知識抽出に関する研究
標題(洋) Extracting knowledge from Databases by Redundancy Reduction
報告番号 115683
報告番号 甲15683
学位授与日 2000.09.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4779号
研究科 工学系研究科
専攻 システム量子工学専攻
論文審査委員 主査: 東京大学 教授 岩田,修一
 東京大学 教授 中澤,正治
 東京大学 教授 関村,直人
 東京大学 教授 古田,一雄
 東京大学 教授 吉村,忍
内容要旨 要旨を表示する

1.はじめに

 知覚信号の処理により周囲から知識を抽出することは困難かつ複雑な逆問題である。Barlowは知覚刺激の統計的圧縮による脳内部での外界モデル構築について仮説[1]を提示し、最近その仮説を実装したLeeとSeungによる研究[2]があり、非負行列分解(Non-negative Matrix Factorization 以下NMFに略)を使用して、局所的構造要素の重ねあわせから全体像をつかむことができるようになった。

 本論文では、以上の研究成果の具体的な課題への適用を考え、セマンティックスについての明示的な取り扱いを目的にした非負条件下での単純な順結合階層型ニューラルネットワークを開発した。知識抽出の対象としては、2D画像から生体情報に至る質的に異なる課題を選定して、本手法の適用について検討し、多様なデータベース群からの知識抽出についての検討を行った。

2.モデルの概要

 今回使用したモデルは3層から成り立っている。入力層と出力層のニューロンは同数であり、最初に主成分解析(Principal Compornt Analysis 以下PCAに略)を行い、全体的な基礎イメージを学習する。非負自動連想(Non-NegativeAutoassociation 以下NNAに略)モデルでは、すべてのシナプスが正または0に限定される。学習の過程では、シナプスは正の値を取る限り誤差逆伝播学習により変更される。出力層にあるニューロンは線形である。訓練の過程では、各パターンは入力及び出力として使用される。内部層のニューロンの数は、入力・出力層より少なく、情報は効率的に内部層に圧縮される。訓練終了後、内部層の各ニューロンは学習に用いた集合の構造要素に対応したものとなる。

3.課題への応用例

 NNAは、構造要素の抽出により多次元パターンを圧縮する特性を持つ方法である。非負条件を使用して、構造単位は各部分に相当する局所的イメージを表現する。この条件により、NNAは全体一部分関係に着目して知識を形成する人間の脳の物体認知モデルに対するアプローチとして考えることができる。この方法の適用可能な問題は我々の身の回りに数多く存在する。.本論文では最初に二次元情報の例として、顔と漢字を取り上げる。次に多次元情報の例として文献情報と生体情報とを取り上げる。これらの適用は、上述の方法の拡張による多次元問題からの知識抽出を目標としている。

 3-1 人の顔への適用

 NNAを最初に顔の像のデータベースに適用した。二次元イメージに関してNNAは収束性が良好で、顔を構造要素の線形組み合わせとして表現可能である。しかし、これらの部分イメージはPCAによる顔全体のイメージとは非常に異なる。図1で示したように、NNAは顔の各部分に似た局所的特徴を抽出する。内部層のニューロンは目を表現するものもあれば、鼻、口、眼鏡を表現するものもある。図1からも明らかなように顔全体は、目、鼻やその他の部分の内部層ニューロンからの選択的発火によって表現されている。

 3-2 NNAとNMFの差異

 人の顔への適用例では、NNAとNMFは似た結果を示したが、常に同じ結果を示すわけではない。この差を示すために、Hintonらのデータを適用した[3]。学習例は縦横の線にあたる結合した20個の基礎イメージにより作成した。計算中にて内部層が20個のニューロンで構成されている場合、NNA、NMF共に縦横の正確な線を示した。しかし内部層を30個のニューロンに増やすと、全く異なる結果を示した(図2)。NMFは自動的に線で、より細かな部分に分割化し、また余分な記号化を生み出す。強調しておかねばならないのは、NNAは20個の構造要素で表現でき、残り10個の内部ニューロンは不活性であることである。この特性は、内部層の非線形性また学習メカニズムが誤差逆伝播学習アルゴリズムにより決定されることによるものである。

3-3 漢字への適用

 漢字は、常に意味のあるいくつかの成分から構成され、形が似た字は関連のある字である。例えば図3(a)の上段の漢字の左側(へん)は、水を表す成分である。もしこれらの成分が最初に認知され、各漢字が成分の組み合わせで表現されているならば、擬似アルファベット的アプローチにより、漢字を簡単に認識することが出来ると考えられる。この点を明らかにするために、図3(a)のような漢字群を使い、この中からNNAにより図3(b)に示す構造要素を学習した。これらの構造要素は漢字の成分に良い一致を示した。

3-4 英単語の接頭語と接尾語への適用

 部分表現モデルとしては,NNAの適用範囲は上記のような視覚的パターンだけでなく、言語の構造発見にも応用可能である。単純な例として、英単語認識の問題を考察してみる。例としてHamletを選択した。NNAは局所的な変化に敏感であり、10文字の英単語を使用した。結果的にNNAは接頭語と接尾語を見出すことができた。文章への拡張については、単語群の集約操作が必要となる。

4.クラスターリングアルゴリズム

 部分群の認識も重要な課題であるが、与えられたパターンがどの集合に属するか正確に判断することも同様に重要なことである。本論文は、材料シミュレーションで幅広く使用される原子間ポテンシャルの考えに基づいた新しいアルゴリズムについて考察した。この方法では、パターンを原子で表現し、個々のパターンの類似性により原子間力を定義する。似たパターンが集合体を形成する場合、系全体で安定状態となる。このように、クラスターリング問題は安定構造を見出す問題に変換することが可能である。ランダムな構造の場合、最適解を見出すためシミュレーテッドアニーリング手法を使用し、試験的に作り出されたデータで最初に適用し、十分な収束性を示した。今回用いたアヤメのデータは、クラスタリングに標準的な例であり、PCAで得られた結果と非常に似た結果が新しいアルゴリズムでも得たことから、本手法は適用範囲の広い手法であると言える。

4-1 遺伝子発現パターンへの適用

 実用的な課題として、遺伝子発現パターンによるガン分類への適用を試みた。ここでは急性白血病を例に採った。急性白血病には2つのタイプがあり、1つは急性リンパ球性白血病(Acute Lymphoblastic Leukemia以 下ALLに略)、もう1つは急性骨髄性白血病(Acute Myeloid Leukemia以下AMLに略)である。ALLとAMLを区別することは、正確な治療を施すために重要なことである。ここでは遺伝子発現パターンに72人の患者のそれぞれ7129種類の遺伝子群を使用した[4]。これらの72人の遺伝子発現量を成分に持つ巨大なベクトルに新しいアルゴリズムを適用することにより、図4の示すように2次元マップ化を得た。このマップでは、ALLとAMLの2種類を明らかに区別することが可能である。

5.結論

 大規模なデータベースから知識を抽出する2種類の方法を開発し、顔、漢字、文章、生体情報の分類と解釈に適用した。また材料科学における原子間ポテンシャルに関する概念を活用複雑な情報の可視化手法を開発した他、知識抽出のための補完的手法としてガン分類に関して分類アルゴリズムを開発し妥当な結果を取得して、本研究により開発した手法の有用性を示した。

(参考文献)

[1]H.B.Barlow,Neural Computation,1,295-311(1989).

[2]D.D.Lee,&H.S.Seung,Nature401,788-791(1999).

[3]G.E.Hinton,P.Dayan,B.J.Frey,&R.M.Neal,Science,268,1158-1161,(1995).

[4]T.R.Golub,et al,Science 286,531-537,(1999).

図1 NNAを顔の像のデータベースに適用した時抽出した構造要素。各構造要素は内部層ニューロンに表現された情報である。

図2 Hintonらのデータを適用した時(a)NMF、(b)NNAにより抽出した構造要素。NNAでは不必要な内部層ニューロンは除去される。

図3(a)手書きによる頻繁に使用される24個の漢字。(b)NNAにより抽出した構造要素

図4 遺伝子発現量パターンのクラスターリングによるガン分類。

審査要旨 要旨を表示する

 デジタル化の急激な進行の中で大規模な情報が容易に入手できるようになったが、そこから必要な情報、知識を抽出することは容易ではない。本研究では、知識抽出の問題を情報圧縮と補完とを含む逆問題と考え、冗長性圧縮による知識抽出を行うための多変量解析、非負条件下での単純な順結合階層型ニュートラルネットワーク及び複雑システム間の写像による可視化の3つの手法を開発した。知識抽出の対象としては、2D画像から生体情報に至る質的に異なる課題を選定して、本研究で開発した3手法の適用可能性について検討した。その結果、非負行列分解(Non negative Matrix Factorization 以下NMFに略)を使用して、局所的構造要素の重ねあわせから全体像をつかむことができるようになった。また、不十分なデータの補完についてもクラスタリングによる手法を提案し、多様なデータベース群からの知識抽出についての見通しを得て、その結果を8章からなる論文としてまとめている。

 第1章は序論であり、知識抽出に関する研究の現状を要約し、本研究の目的および論文構成について述べている。

 第2章は標準的多変量解析手法としての主成分解析(Principal Component Analysis 以下PCAと略)について説明し、第3章では、本研究で開発したニュートラルネットワークすなわち非負行列分析(No-・negative Matrix Factorization以下NMFと略)、非負自動連想(Non-Negative Auto association 以下NNAと略)について説明し、PCA、NMF、NNAをHintonらによる標準パターンに適用した結果を、精度、収束性、抽出内容、適用可能性等の観点から論じている。PCAは、全体像の特定の部分空間への線形写像であるが、本研究で使用したニュートラルネットワークは3層から成り、入力層と出力層のニューロンは同数とし、NNAモデルでは、すべてのシナプスが正または0に限定することにより、統計的相関ではなく、自己説明性のある解析結果を得ている。

 第4章は、全体一部分関係の抽出に関する検討で、人の顔への適用例を示し、NNAとNMFの違いを内部層の非線形性、誤差逆伝播学習アルゴリズムの違いによるものとしている。第5章はテキストへの適用例で手書き、漢字、英単語の解析例を示し、全体一部分関係の抽出が効果的に行われていることを示し、次に文献データベースの分類についての検討結果を述べている。第6章は、実用的な課題として、遺伝子発現パターンによるガン分類への適用について述べている。部分群の認識も重要な課題であるが、与えられたパターンがどの集合に属するか正確に判断することも同様に重要なことであり、本論文では、材料シミュレーションで幅広く使用される原子間ポテンシャルの考えに基づいた新しい分類アルゴリズムを提案している。この方法では、パターンを原子で表現し、個々のパターンの類似住により原子間力を定義し、類似のパターンが集合体を形成する場合、系全体が安定状態となるとして、大量のデータの中にあるパターンの抽出を試みている。つまり、クラスタリング問題を安定構造を見出す問題に変換することにより、分子動力学で活用されている計算手法、解析手法、例えばランダムな構造の場合の標準的な例であるシミユレーテッドアニーリング手法などを利用可能にしている。アヤメのデータのクラスタリングを試み、PCAで得られた結果と類似の結果を得て、本手法の妥当性を確認し、実用的問題として・急性白血病を例に採った遺伝子パターンの分類を試みている。急性白血病には、急性リンパ球性白血病(Acute Lymphoblastic Leukemia 以下ALLに略)と急性骨髄性白血病(Acute Myeloid Leukemia 以下AMLに略)2つのタイプがあり、AL LとAMLをを区別することは、適切な治療を施すために重要なことである。ここでは遺伝子発現パターンに72人の患者のそれぞれ7129種類の遺伝子群を使用し、遺伝子発現量を成分に持つ巨大なベクトルに本アルゴリズムを適用することにより、2次元マップを得て、ALLとAMLの2種類を明らかに区別することが可能であることを示している。

 第7章は、以上の事例についての議論、第8章は結論である。本研究は、大規模なデータベースから知識を抽出するため、全体一部分関係を抽出するための新しいニュートラルネットワークの手法及びクラスタリングによる複雑な関係の可視化手法を開発し、その手法がデータ一般の知識抽出に有用であることを示したものであり、工学分野のみならず他分野の知識抽出に寄与するところ少なくない。

 よって本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク