学位論文要旨



No 119020
著者(漢字) 安藤,晋
著者(英字)
著者(カナ) アンドウ,シン
標題(和) 実数値遺伝的アルゴリズムを用いた遺伝子ネットワークモデルの推定
標題(洋) Estimation of Gene Network Model using Real-coded Genetic Algorithm
報告番号 119020
報告番号 甲19020
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5752号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 助教授 伊庭,斉志
 東京大学 教授 田中,英彦
 東京大学 教授 近山,隆
 東京大学 教授 坂井,修一
 東京大学 教授 相澤,清晴
 東京大学 助教授 黒橋,禎夫
内容要旨 要旨を表示する

近年の測定技術の進展は、遺伝子の発現過程を動的に、高い並列性を持って捉えることを可能にした。細胞内には代謝産物、たんぱく質、転写産物等による制御回路が存在する。その中で、DNAマイクロアレーによって観測することができるmRNAの時系列データは細胞内のメカニズムを理解するための鍵を提供しているといえるだろう。分子生物学ではさまざまな細胞内物質の関係をグラフ構造・ネットワークで表す手法が一般的であるが、発現データの増加とともに、遺伝子の関係に写像した遺伝子ネットワークの解析とモデル化が分子生物学における重要な課題となっている。

本論文はDNAマイクロアレーにより測定される遺伝子発現時系列データに基づいた遺伝子機能のネットワークモデル化を目標とする。現時点では既知でない遺伝子の相互作用をモデル化するため、制御等に用いられる一般性のある微分方程式系(S-system)を用いた。観測される遺伝子発現データをよく再現するようなモデルのパラメータを決定する問題はリバースエンジニアリングと呼ばれる。ここではパラメータの観測データとシミュレーション出力の差を赤池情報量基準で評価し、それ最小化する関数最適化問題と考える。これは多峰性・高次元な関数最適化問題であり、進化的計算アルゴリズムによって解くのに適した問題である。本論文では実数値遺伝的アルゴリズムを分布推定アルゴリズムの考え方を用いて拡張したアルゴリズムとGoldbergらによるMessy GAを拡張したアルゴリズムを組み合わせた解法を実装した。

しかしながら、現在の技術で得られる発現データは非常に短い(数十時点)時系列データであり、非常に大きな規模(数千の発現ノード)を持つモデルの決定には概ね不十分である。技術の進展には目覚しいものがあるが、本研究では以下の複合的な手法を用いて、まず30ノード(900変数)程度の逆問題を解くことを目標とした。まずは逆問題をサブタスクに分割して一度に最適化するパラメータを減らす実装を行った。

さらに、生成されたモデルのうち、よりよく決定されたパラメータを抽出するためのロバストネス解析を利用した。これはGAの反復試行により生成される複数のモデルから各パラメータの統計値をとり、より安定して推定されるパラメータを選別する手法である。ただし、この手法では遺伝子ネットワークの局所的なモジュール性を仮定している。

もうひとつは、データベース等から得られる発現データ以外の知識を推定の過程に取り入れる手法である。ゲノムデータベースにはアノテーションやプロモータ、オペロンなどに関する知識がさまざまな確信度で蓄積されている。ここではデータベースの知識の信頼度を重みとして評価関数に反映させる。これは、探索のランドスケープ内に既存知識に集約するようなアトラクタを作ることに相当する。

実験では、まず拡張したアルゴリズムを、高次元での関数最適化ベンチマーク問題での性能を確認した。本研究で利用したのは非直交分布の多峰性関数であるRastrigin関数とRosenbrock関数である。目標とする問題のサブタスクと同じ30次元の関数を最適化した。遺伝的アルゴリズムを100回試行し、十分な性能が得られることを確認した。

続いて、遺伝子発現シミュレーションによって実数値遺伝的アルゴリズム、ロバストネス解析、知識導入な手法を検証した。ここでは20個の遺伝子からなる遺伝子ネットワークのS-systemモデルを用意し、数値積分によって人工発現データを生成した。また、実際の観測条件を考慮し、正規分布の誤差を加えている。実験では発現データセット(20ノード×100時点の時系列データ)を異なるノイズパターンで100個用意した。時系列データのうち20点を赤池情報量基準でのフィッティングに用いた。

ノイズの分散を0.6とした実験では最適解として得られたモデルが正しいモデルと一致した。ノイズの分散を1とした場合には多数の局所解が得られた。これらの局所解のモデルからロバストネス解析による指標を算出すると高い感度での制御関係が推定できることが分かった。また、ターゲットモデルに関する知識を導入した実験では、20%程度の知識でネットワークの局所解の多くが削除され、推定の感度が向上することが示された。

シミュレーション実験をふまえ、大腸菌のパブリック発現データ(Stanford Microarray Database)の解析を行った。トリプトファンの過剰、不足条件下での大腸菌の約200遺伝子の発現を5つの時点で測定したものである。またこれらの遺伝子に関してはRegulonDBにてプロモータ、オペロンなどの情報が提供されている。実験では同オペロンに属する遺伝子に関する知識を評価関数に導入した。この中で、14個の遺伝子トリプトファンに影響を受ける14遺伝子を選択し、それらを制御する遺伝子を全遺伝子の中から推定した。ロバストに推定されたパラメータのうち約4分の一を生物学的文献にて確認することができた。

今後は得られた結果から生物学的な仮説を抽出することを試みたい。また、課題としては間違った知識による影響の調査、ロバストネス解析の多峰性への対応、得られたモデルの安定点解析などが残っている。

審査要旨 要旨を表示する

本論文は、「Estimation of Gene Network Model using Real-coded Genetic Algorithm (実数値遺伝的アルゴリズムを用いた遺伝子ネットワークモデルの推定)」と題して、バイオインフォマティクスにおける重要な課題である遺伝子制御関係のモデル化を行うものである。遺伝子の制御関係は遺伝子をノードとするネットワークとして表現されることが多く、この推定は主として発現データを基にしたブラックボックスモデルの逆問題である。本研究では、これを進化的計算手法に基づく効率的なパラメータ最適化アルゴリズムにより解く手法を提案・実装している。さらにモデル生成の反復的プロセスにおいて候補モデルの分割・再構成、統計的・生物学的整合性の評価などを導入している。その上で最終的に生成したネットワークを各候補もモデルを統計的に処理し、独立したリンクの評価方法を示している。実装したシステムにおいて、その性能をシミュレーションデータと実データの解析において検証している。本論文はその成果をまとめたもので、10章から構成される。

第一章INTRODUCTIONでは研究の背景を間単に説明している。まずFunctional Genomicsの分野における進展・課題を解説し、なかでも、生化学ネットワーク、遺伝子ネットワークの概念とそのシステム的理解の重要性について述べている。それを踏まえ、本研究の目的である遺伝子ネットワークのモデル化における困難とそれに対するアプローチを記述し、最後に本論文の構成を示している。

第二章GENE EXPRESSIONS MEASUREMENTでは遺伝子発現の測定手法と得られるデータの誤差等の特徴について述べている。

第三章はGENE NETWORK AND MATHEMATICAL REPRESENTATIONと題し、遺伝子ネットワークの関連研究について説明している。比較的低次元で頻繁に用いられる解析手法として、クラスタリングとクラシフィケーションを挙げる。さらに抽象的な遺伝子発現モデルとして、ブーリアンネットワーク、ベイジアンネットワーク、線形微分方程式系などを用いた研究事例を示している。最後に本研究で利用したS-systemと呼ばれるべき乗則の微分方程式系を用いた定式化手法を述べている。さらに同モデルを用いた数値計算による仮想的な遺伝子ネットワークのシミュレータの実装を説明している。

第四章はSYSTEM BIOLOGY AND REVERSE-ENGINEERINGと題し、分子生物学におけるシステム的なアプローチと、逆問題へのアプローチについて述べている。さらにこの節では得られたモデルを評価する方法について説明している。本研究では赤池情報量基準によるモデルと観測時系列比較を主に用いている。さらに、データベース等からの知識を導入する評価関数を実装している。

第五章FUNCTION OPTIMIZATION BY REAL-CODED GENETIC ALGORITHMでは、最適化手法としての実数値を用いた遺伝的アルゴリズムに関する解説を行っている。まず基本的な遺伝的アルゴリズムにおける遺伝操作(交叉や変異)について述べている。さらにそれを踏まえて、本研究で提案する進化的計算手法で用いた、正規分布に基づいた集団の再分布手法について説明している。その上で実装したアルゴリズムを関数最適化問題における標準的なベンチマーク問題を用いて評価した結果を示している。

第六章はSIMULATED EXPERIMENTと題し、第四章で実装したシミュレータをブラックボックスモデルとし、第五章で実装した関数最適化アルゴリズムを用いてリバースエンジニアリングを行っている。シミュレーションでは20〜30ノードの仮想遺伝子ネットワークを準備し、マイクロアレーにおけるノイズを見積もった正規分布誤差により仮想アレーデータを生成している。さらに知識導入による影響の解析を行っている。

第七章MICROARRAY DATA ANALYSISではパブリックデータベースから取得した大腸菌の発現データを用いて第六章と同様の解析を行っている。実験では特定の薬品に対する反応が既知の遺伝子を選択的にデータセットに含めた。また、別のデータベースからオペロンマップと呼ばれる知識を評価関数に導入した。実験結果を文献による既知のメカニズムと比較し、生物学的に妥当な結果を得たことを確認している。さらに、反復的な手法により、ゲノムシーケンスに関する知識を抽出する実験を行っている。

第八章では、本研究で行った実験から得られた知見を整理し、考察を述べている。

第九章は結論であり、遺伝子ネットワークのモデル化における本研究の成果をまとめ、さらに今後の課題を示している。

以上これを要するに本論文は、バイオインフォマティクスにおける重要な課題である遺伝子制御関係モデルの推定手法を進化論的計算に基づいて提案し、遺伝子発現データを用いて実験的に評価することによりその有効性を示したものであり、電子工学の発展に貢献するところ少なくない。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク