学位論文要旨



No 119528
著者(漢字)
著者(英字) SASHA,OTT
著者(カナ) ザーシャ,オット
標題(和) 遺伝子ネットワークにおける最適なモデルの探索
標題(洋) Finding Optimal Models For Gene Networks
報告番号 119528
報告番号 甲19528
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第9号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 中井,謙太
 東京大学 教授 辻井,潤一
 東京大学 教授 萩谷,昌己
 東京大学 教授 米澤,明憲
 東京大学 教授 今井,浩
内容要旨 要旨を表示する

近年、人間などの高等生物の遺伝情報を完全に解読することが可能になってきている。遺伝情報の単位である遺伝子がDNA に暗号化されており、転写と翻訳によって発現する。転写によって遺伝子がRNAへと複製されてから、RNA を鋳型に蛋白質が翻訳によって作られる。RNAと蛋白質の分子が細胞の中の多様な機能を実現しており、生命の現象の基本となっている。全遺伝子の転写と翻訳を調整することによって、細胞の成長、細胞の分裂、環境条件の変化に対応することなどが可能になる。その調整を果たしているのもRNA と蛋白質であるので、遺伝子の発現と遺伝子の調整がサイクルを形成し、それぞれの遺伝子の発現レベルは相互に調整される。その様な発現レベルから見た依存関係の全貌をここでは遺伝子ネットワークとよぶ。

DNA マイクロアレイ等の新しい技術の開発により、細胞の殆どの遺伝子の発現レベルを同時に測ることが可能になってきている。その様な一連の実験で得るデータから遺伝子ネットワークについての情報を抽出する方法は、ポストゲノム時代の最優先のニーズの一つである。遺伝子ネットワークの情報を入手できれば、細胞システムの理解が深まり、分子生物学、医学、製薬等への貢献をもたらすと期待される。そのため、遺伝子ネットワークの発現データからの推定が生物情報科学の主なテーマの一つとなっている。

しかし、遺伝子ネットワークの探索問題はNP 困難な問題であり、探索空間の大きさは超指数関数的である。ブルートフォース的な方法の適用では、9個の遺伝子のネットワークの場合でも実現できない規模の計算量となる。これらの問題を避けて、ヒューリスティクなアルゴリズムを適用すると探索の結果の良さが不明になる。そのため、今までは確実に最適な遺伝子ネットワークのモデルを得るとは不可能だった。

遺伝子ネットワークが注目を集める問題であるのに、今までの研究ではネットワークの推定について、本質的な評価が行われなかった。推定の評価を行う際、問題になるのは、実際の遺伝子ネットワークの知識が断片的であることやネットワークのどの部分がどういう実験の条件で働くかという不確かさ等である。それゆえ、発現データから推定される遺伝子ネットワークのモデルが有意であることの証明は今までになかった。

本研究ではネットワークの探索空間の解析を行い、指数関数的な時間で超指数関数的な探索空間の中の最適なネットワークを見付け出すことのできるアルゴリズムを開発した。これにより、遺伝子数が20個の場合でもこのアルゴリズムを現実的な時間で利用することが可能となった。さらに生物学的に妥当な制約条件のもとでは、遺伝子数が35個前後の時でも最適なモデルの探索が行える。また、実際の発現データでは有意に違わない発現のパターンを見せる遺伝子が多いということを考慮して、パターンが等しいといえる遺伝子をグループにまとめることができる。そういった本質的な部分をネットワーク要素とよぶ。遺伝子ネットワークをネットワーク要素から構成して100個前後の遺伝子を扱って、最適なモデルの探索が現実的に可能であることを明らかにする。

したがって、遺伝子数が限られた場合においては、発現データから遺伝子ネットワークについて情報を得ることができるというメリットをこのアルゴリズムはもっている。このアルゴリズムが発現データの種類にもこれまで提案されている統計学的な遺伝子ネットワークのモデリングの方法にも依らないので、一般的に利用することが可能である。ヒューリスティクなアルゴリズムの不確実な結果を避け、こうした統計学的なモデリングの方法のそれぞれに対して最適なモデルの探索を行うことにより、モデリングの方法の適切さを評価することができる。同様に、異なる実験の方法を適用して得たデータのそれぞれに対して最適なモデルの探索を行えば、遺伝子ネットワークを発見するための実験方法の良さも評価でき、データの良い組み合わせ方も解析できる。

ところが、最適なネットワークとは、モデリングに対応したスコア関数に関して最適なネットワークに過ぎない。ほぼ等しいスコアで構造の異なるネットワークが数多く存在しうる。その理由に依り、データにはそもそもネットワーク全体の情報は無くて、全ネットワークの部分的な情報しかないという可能性を十分に考慮するべきである。遺伝子数またはネットワーク要素数が10個のときでもネットワークの候補の数が4.17 ・ 1018 の規模であるので、最適ネットワークといっても、生物学的に真の遺伝子ネットワークとは違うことが多々ある。

本研究ではその問題に取り組んで、二段階の方法を開発した。一つ目に、上述のアルゴリズムの理論を更に展開させて、最適なモデルから始めてネットワークをスコアの順で数え上げることができるようにした。数え上げの行えるネットワーク要素数は上に述べた規模とほぼ同じであるし、mが2万のときでも一番スコアの良いm 個のネットワークを現実的に数え上げられる。二つ目に、スコアの良いネットワークを比較して、共通な部分を取り出せる幾つかの方法を適用する。この様な共通部分をネットワークモチーフとよぶ。研究の成果として、実際のデータを使って推定したネットワークから抽出したネットワークモチーフの方が最適なネットワークより生物学的な知識と有意に一致していることがわかった。数え上げとネットワークモチーフ抽出からなる方法により、枯草菌と大腸菌を用いて、本研究で初めてネットワーク推定に基づいた遺伝子ネットワークの比較を行った。その解析の結果も紹介する。

さらに、上述の方法を任意に大きな遺伝子ネットワークの場合にも適用できるアプローチを提案する。ここで、広く認知されている遺伝子ネットワークの一般的な構造、すなわち密度の高い構成成分が存在し、その構成成分同士はまばらにつながっている構造を前提する。この前提のもとで生物学的に意味のある探索空間の部分を選択してから、部分探索空間に最適なモデルの探索アルゴリズム、数え上げのアルゴリズム、モチーフ探索アルゴリズムが適用できることを示す。その部分探索空間を選択するために、生物学的な既知の知識を適用できる。既知の知識が十分でない場合、クラスタリングまたはヒューリスティクなアルゴリズムを利用できる。ネットワーク要素数がn のとき、部分探索空間を探索する時間はO(n) になるので、このアプローチにより要素数の制約を解決できる。この方法を利用して生物学的な知識と有意に一致する推定ができることを示す。

本研究で幾つかの手法を使って、推定したネットワークのモデルを生物学的な知識と厳密に比較した。いずれの手法でも推定が有意に知識と一致することが明らかになったので、研究の成果として遺伝子ネットワーク推定の意義を示すことができた。

また、時系列データからの推定に微分方程式を使うという特殊ケースについて得た結果も含める。人工的な発現データを作って、データのエラーの大きさと測定の数とは、推定の良さにどの様に影響を与えるかについて調べた。さらに、微分方程式のスコア関数とBNRC というスコア関数をそれぞれ同じデータに対して利用した結果を議論する。また、微分方程式を使った遺伝子ネットワーク推定問題の特殊ケースの複雑さを決めるために、その問題がある定義のもとでNP-困難であることを証明する。

大腸菌の遺伝子ネットワーク推定から抽出したネットワークモチーフ.

枯草菌の遺伝子ネットワーク推定から抽出したネットワークモチーフ.

審査要旨 要旨を表示する

ヒトゲノム計画の完了(レファレンスとなる全ヒトゲノム塩基配列の決定)を契機に浮かび上がってきた生命科学研究の次の焦点の一つは、ゲノムにコードされた遺伝子産物間の相互作用ネットワークの解明である。特に遺伝子発現レベルの相互依存関係ネットワーク(遺伝子ネットワーク)を、DNAマイクロアレイ実験などに代表される網羅的な実験によって得られるデータから推定する研究が、現在生命情報科学(バイオインフォマティクス)のホットな課題になっている。この種の研究では、実験データから導かれる評価関数に対して、膨大な組み合わせの依存関係の候補を探索する必要があるが、この探索問題はNP困難である。そこで本論文では、指数関数的な時間で超指数関数的な探索空間中の最適ネットワークを発見することのできるアルゴリズムを、いわゆる動的計画法に基づき開発したことを報告している。これによって、遺伝子数が20個程度の場合なら厳密解を得ることが可能になった。次に、本論文の著者は生物学的に妥当な制約条件(各遺伝子を制御する親遺伝子の数に上限をもたせる)の下では遺伝子数が35個程度でも最適解を探索可能にする方法も提唱した。さらに、発現パターンがほとんど同じである遺伝子をグループにまとめることで、遺伝子が100個程度の場合でもある程度現実的な探索を行う方法を示している。これらの結果は遺伝子ネットワークのモデル化の方法によらないので、モデル化方法の評価にも応用可能である。

一方、現実の解析では単に理論上の最適解を求めるだけでは十分ではない。なぜなら、同程度のスコアをもつ解が多数存在し、スコア付けの方法や実験データが完全でないからである。そこで、著者は最適解に近いネットワークをスコアの順に数え上げる方法を提案し、著者がネットワークモチーフと呼んでいるいくつかのネットワークの共通構造を抽出するアルゴリズムと組み合わせることで、推定された遺伝子ネットワークが、枯草菌や酵母などの現実の生物の既知ネットワークと有意に一致することを明らかにしている。この方法を巨大な遺伝子群からなるネットワークに適用する場合には、遺伝子ネットワークの密度が高い部分を、生物学の知識やクラスタリングなどによって抽出することにより可能であることも示されている。これらの研究の結果、世の中に存在する遺伝子ネットワーク推定手法の有効性とその限界が明らかにされつつあり、これは今後のこの分野の一層の発展を促すものと思われる。

以上、見てきたとおり、本論文の著者は、生命情報科学における非常に重要かつホットな課題に取り組み、顕著な成果を上げているといえる。実際、この論文に報告されている成果の多くはすでにいくつかの査読付き国際学会に採択されているか、現在投稿中である。また、本論文の内容とは直接の関係はないが、著者はRNAスプライシングにおいて、いかに巨大なイントロンがうまく切り出されるかという問題に対して、intra-splicingというユニークな仮説を提唱しており、生命情報科学において別の側面からも貢献をしている(Ott et al., Pacific Symposium on Biocomputing 2003, 339-350)。審査会議上では、ここに述べてきたような、生物学の実際上の問題をきっちり解くという著者の姿勢を積極的に評価しようという声が多かった。反面、これらの仕事は、純粋に情報科学のアルゴリズム研究という観点からみた場合、抽象化の面で少し弱いと言わざるを得ないが、それは著者の基本的な研究へのスタンスの問題であり、そのことをもってして学位の要件を満たさないと考えるのは不当であるという結論に至った。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク