学位論文要旨



No 111959
著者(漢字) 久原,泰雄
著者(英字)
著者(カナ) クハラ,ヤスオ
標題(和) 自己増殖オートマトンネットワークの開発と酵素機能解析への応用に関する研究
標題(洋) Development of Self-Reproducing Automata Network And Application to Analysis of Enzyme Functions
報告番号 111959
報告番号 甲11959
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(農学)
学位記番号 博農第1675号
研究科 農学生命科学研究科
専攻 応用生命工学専攻
論文審査委員 主査: 東京大学 教授 土井,淳多
 東京大学 教授 魚住,武司
 東京大学 教授 吉澤,修治
 東京大学 助教授 山根,久和
 東京大学 助教授 清水,謙多郎
内容要旨 1自己増殖オートマトンネットワークの開発

 脳の構造や動作についての知見を基に神経回路モデルを計算機上に構築する動きは,1940年代のMcCullochとPittsの閾値素子やD.Hebbのシナプス強化則に始まり,様々なNeural Networkが研究されてきた.Neural Networkへの期待は学習能力であるが,学習対象のデータが多くなるとネットワークの規模が大きくなり,計算時間が増大し,収束性も悪化する.学習速度を上げるための試みが数多く提案されてきたが,学習環境が動的に変化すると,最適なネットワークの決定に困難が伴い,学習能力を保持することが難しい.

 Hubelらは視覚の脳内機構に関する研究によって神経回路の情報処理を次のように特徴付けた.(1)膨大な数の低速なユニットが互いに連結してネットワークを形成し,相互に情報交換する.(2)個々のユニットは,各々の変移則に従って並列に動作する.(3)ユニットの増殖によってネットワーク構造を変化させながら処理を行う.本論文ではこの分析に着目して,自己増殖オートマトンネットワーク(Self-Reproducing Automata Network:以下ReproNetと記す)を提案する. ReproNetは,ユニット,ネットワーク,変移則の3要素で構成される.ユニットは入出力と内部状態をもち,並列に動作する1つの自己増殖オートマトンである.ユニットは相互に結合してネットワークを構成する.図1にユニットとネットワークの構造を示す.変移則は個々のユニットがもつ動作規則である.変移則は内部状態などの条件に応じて規定された動作を実行する.具体的には,伝達効率の変化,環境の変化の監視,学習能力の評価,ユニットの増減,ネットワーク構造の変化などである.

図1:ユニット(左)とネットワーク(右)の構造.

 ReproNetの学習能力を検証するために,環境の変化に対して,ネットワーク形態を動的に変化させる階層型ネットワークを構築した.momentum法による階層型Neural Networkと比較して,データが逐次増加する環境下における学習能力と未知のデータに対する識別能力を検証した.また,暗号文の解読と文字認識の2種のパターン認識問題により,構築したモデルの汎用性を検証した.この検証のために構築したReproNetでは,学習データの増加に応じて,隠れ層のユニットを増殖させた(減少する例は後述).増殖の方法は,隠れ層を1つ増やす方法(最大2層まで)と,隠れ層内のユニットを次のように1つずつ増やす方法を用いた.(1)出力層のユニットにおいて,現在のネットワークの学習能力を評価するために,各ユニットごとに教師信号との誤差から性能評価値を求める.(2)その評価値をネットワーク内の全ユニットに対して,入力信号と逆方向に伝播させる.(3)各ユニットは各自の内部状態や性能評価値に基づいて新しいユニットを増殖するかどうか決定する.

 構築した変移則の流れ図を図2に示す.ReproNetは,増殖に関係する変移則として,現在の学習データにおける学習性能をネットワーク内部に反映させる変移則r2とr5,隠れ層とユニットの増殖を制御する変移則r3とr6を持つ.隠れ層のユニットは2種の内部状態を持つ.通常はwait状態であるが,ready状態になると,新しいユニットを1つ追加する.出力層のユニットはすべてout状態であるが,層の増殖を制御する変移則r3を持つ.

図2:変移則の流れ図.増殖に関係する変移則を網掛けで示した.はじめに,内部状態を調べる.次に,条件を満たした変移則を実行する.

 暗号化手法として,排他的論理和とUNIXのcryptを用いた.図3(左)には,cryptによる暗号文の学習をReproNetとNeural Networkで比較した結果を示す.ReproNetは学習データの増加に応じて,ユニット数を増加させ,性能低下を抑えている.Neural Networkは,学習データが変化すると性能が低下する.

 文字認識問題については,アルファベット26文字を表すビットマップを入力し,正しく認識するように学習させた.モデルの汎用性を検証するため,入出力の部分以外は暗号解読問題の場合と同じモデルで実験した.ReproNetは環境の変化に適応してネットワーク構造を変化させることによって,暗号解読問題と同様の優れた学習能力を示した.

2酵素機能解析への応用

 酵素は,触媒として働く作用を選択する性質が強い,この酵素の特異性は基質と酵素の構造上の相互関係によって発揮される.このことは,酵素のアミノ酸1次配列上の局所的な情報を用いて,酵素機能の分類が可能であることを示唆している.

 本論文では,ReproNetに酵素のアミノ酸1次配列を入力し,EC番号(1:酸化還元酵素,2:転移酵素,3:加水分解酵素,4:除去付加酵素,5:異性化酵素,6:合成酵素)を出力するネットワークを構築した(図4参照).生命分子配列の解析における学習能力を検証するために,前述の構築したReproNetを用いて,Neural Networkと比較した.学習用データとしてEC1からEC6までの合計100個の酵素を用いた.タンパク質の1次配列データが年々増加していることを考慮すると,ネットワークが増加する学習データに応じて.学習性能を維持することは重要である.ここでは,学習データが増加する場合の学習能力を評価した.ReproNetは隠れ層のユニットを増殖させることによって(図3(右)参照).収束率,増加する学習データへの対応.計算機資源の消費の点で優れた性能を示した.

図3:(左)暗号解読におけるReproNetとNeural Networkの学習能力の比較.学習データの増加に対するネットワークの出力誤差を示した.NeuroNetB,C,Dの隠れ層のユニット数は,各々16,36,100である.(右)酵素分類における学習データの増加に応じたユニットの増殖.ReproNet10,20,50は.隠れユニット数の初期値が各々10,20,50である.学習データの増加に伴い,性能低下を抑えるためにユニット数が増加している.図4:酵素機能分類用に構築したReproNetのネットワーク構造.11の連続するアミノ酸残基が1度に入力される.1残基につき20の入力ユニットが割り当てられる.入力された情報は隠れ層を経て.出力層に伝達される,出力層では4個のユニットは各々EC番号1,2,3,4〜6を表し,出力値にしたがって,酵素を分類する.

 予測性能を評価するために.学習データとのホモロジーが異なる複数のテスト用酵素データを用いた.図5には各々ReproNetとNeural Networkの学習と予測率の推移を示した.図6にはホモロジーが40%未満のテストデータの予測率の推移を示した.ホモロジー検索による予測では,長時間の計算が必要であり.しかも既存の酵素とテストデータのホモロジーが低い場合は.機能の予測が困難である.一方,ReproNetでは短時間で,ある程度の予測が可能である.例えば,学習データに対するホモロジーが10〜20%である酵素の機能をホモロジー検索で予測すると30%の正答率であるのに対して,ReproNetでは44%である.

図5:ReproNet(左)とNeural Network(右)の学習と予測.Neural Networkでは学習率の増加に対して過学習が発生し,予測率の上昇が停止しているが,ReproNetは過学習を回避し,予測率が変動しながらも上昇している様子が観察された.図6:ReproNetの40%未満のホモロジーのテストデータの予測率.ホモロジーが低い場合でも,ホモロジー検索より高い予測率が得られる.

 一般的に過学習を回避するために,問題の性質に関する情報を広範囲に包含する学習データを用意する必要がある.学習データを2倍にして学習を行い,予測率の改善を観察した.また,ReproNetの変移則にユニットの増殖に加えて.削除の機能を組み込むことによって,予測率の改善を図った.

 この場合のReproNetは,11残基からなる局所的な1次配列ごとに酵素の機能を予測するので(図4参照).正しく機能が予測された1次配列部位は,その酵素の特徴的な残基列であることが考えられる.NAD依存性脱水素酵素(EC1).ヌクレオチドボリメラーゼ(EC2),セリンブロテアーゼ(EC3)などのファミリーの実例を用いて,ReproNetの出力値に基づいた1次配列の解析を行った,特徴的な部位の同定には,特異的化学修飾法(アフィニティーラベル),X線結晶解析法,部位特異的突然変異導入法が用いられるが.精度やコストなどの点で限界がある.学習済のReproNetによって,1次配列から酵素に特異的な部位やサイトに関する知見が得ることは有意義である.ReproNetの配列に対する出力値を,実際の活性部位残基,基質結合部位,補酵素の結合サイト,アロステリックエフェクターの結合サイト,阻害物の結合部位などと比較分析し,機能部位予測システムの開発の基礎となる知見を得た.

 本研究を要約すると,(1)ユニット,ネットワーク,変移則からなる脳機能の実現を目指したマシンモデルReproNetを開発した,(2)変化する環境におけるReproNetの学習能力を暗号解読問題と文字認識問題によって検証した.(3)アミノ酸1次配列を入力して,酵素機能の分類を学習させた.増加するタンパク質データに対しても高い学習性能を維持することを示した.(4)学習済のReproNetを用いて酵素機能予測を行った.ホモロジー検索よりも有効な手法であることを示した.(5)ReproNetの1次配列に対する出力値を解析し,酵素の特徴的な部位との比較検討を行った.

 今後の展望として,より柔軟なネットワーク構造変化を変移則に組み込むことによる予測性能の向上およびGenetic Algorithm的な手法を用いた世代間の最適化を予定している.さらに,酵素の特徴的なアミノ酸1次配列を局所的に学習し,機能部位を予測するシステム,また2,3次構造予測システムなどにも適用する予定である.

審査要旨

 生命工学分野へのニューラルネットワークの応用は数多く試みられているが、改善の余地も多く残されている。本論文では学習環境の変化に適応するニューラルネットワークを開発することを目的として、自己増殖オートマトンネットワーク(以下ReproNet)を提案した。学習中にデータが増加する環境におけるReproNetの学習能力を検証した。さらに、学習済のReproNetを用いて酵素機能予測を行い、ネットワークの1次配列に対する出力値を解析し、未知の機能部位を抽出するシステムの可能性を示した。全体で序章を含め8章から構成されている。

 第1章は序章、第2章は研究の背景にそれぞれ充てられている。第3章では、ReproNetの構成要素であるユニット、ネットワーク、変移則について述べている。ユニットは入出力と内部状態をもち、並列に動作する1つの自己増殖オートマトンである。ユニットは相互に結合してネットワークを構成する。変移則は個々のユニットがもつ動作規則である。変移則は内部状態などの条件に応じて規定された動作を実行する。

 第4章はReproNetの学習能力の検証に充てられている。階層型ニューラルネットワークと比較して、データが逐次増加する環境下における学習能力が検証されている。さらに、暗号文の解読と文字認識により、構築したモデルの汎用性も検証されている。現在のネットワークの学習能力を評価するために、出力層のユニットにおいて教師信号との誤差から性能評価値を求めた。さらに、その評価値をネットワーク内の全ユニットに対して、入力信号と逆方向に伝播させた。各ユニットは各自の内部状態や性能評価値に基づいて新しいユニットを増殖するかどうか決定させた。

 第5章では、アミノ酸1次配列を入力し、酵素機能を分類するネットワークの構築について述べている。学習用データとして国際酵素委員会の分類法に従ってEC1からEC6までの合計100個の酵素を用いた。タンパク質の1次配列データが年々増加していることを考慮して、学習データが増加する場合の学習能力を評価した。ReproNetは隠れ層のユニットを増殖させることによって、収束率、増加する学習データへの対応、計算機資源の消費の点で優れた性能を示した。

 第6章では、学習データとのホモロジーが異なる複数のテスト用酵素データを用いた酵素の機能予測について述べている。ホモロジー検索による予測と比較して、計算時間とホモロジーの低いテストデータに対して、予測性能が優れていることを示した。さらに、ユニットの削減という柔軟なネットワークの変化を導入して、予測性能を改善した。

 第7章では、ネットワークの出力と実際の酵素のアミノ酸配列の解析について述べている。NAD依存性脱水素酵素、ヌクレオチドポリメラーゼ、セリンブロテアーゼの実例が用いられている。実際の活性部位残基、基質結合部位、補酵素の結合部位、阻害物質の結合部位などと比較し、機能部位予測システムの開発の基礎となる知見を得た。

 本研究を要約すると、変化する環境に対応して構造を可変とするニューラルネットワークであるReproNetを開発し、学習能力を検証した。アミノ酸1次配列を入力して、酵素機能の分類を学習させた。増加するタンパク質データに対しても高い学習性能を維持することを示した。酵素機能予測に応用し、ホモロジー検索よりも有効な手法であることを示した。ネットワークの1次配列に対する出力値から、酵素の特徴的な部位の予測可能性に対する知見を得た。これらは学術上、応用上貢献するところが少なくない。よって審査員一同は、本論文が博士(農学)の学位請求論文として価値あるものと判定した。

UTokyo Repositoryリンク http://hdl.handle.net/2261/54529