学位論文要旨



No 129103
著者(漢字) パラフォクス ノバック レオン フェリップ
著者(英字)
著者(カナ) パラフォクス ノバック レオン フェリップ
標題(和) ノンパラメトリックベイズモデルを用いた遺伝子制御ネットワークのモデル化
標題(洋) Modeling of Gene Regulatory Networks using Non Parametric Bayesian Models
報告番号 129103
報告番号 甲29103
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7994号
研究科 工学系研究科
専攻 電気系工学専攻
論文審査委員 主査: 東京大学 教授 伊庭,斉志
 東京大学 教授 近山,隆
 東京大学 准教授 佐藤,周行
 東京大学 准教授 小川,剛史
 東京大学 准教授 鶴岡,慶雅
 東京大学 准教授 小林,徹也
 東京大学 講師 ボッレーガラ,ダヌシカ
内容要旨 要旨を表示する

In the last five decades, the human knowledge concerning the genetic network has grown exponentially, due in part to many new techniques used to obtain information from the genetic networks. Every day, new batches of data, describing the genome of bacteria, insects, animals and humans, are released to the public.

Clearly, our ability to process and interpret that amount of data has been surpassed by our ability to generate it. Many laboratories in the world are focusing their researches on processing and classifying all these genetic data. And among those, finding the regulations within genes, the gene regulatory network (GRN), has been of special interest.

Classical approaches have used known mathematical tools to attack a novel problem. Since those tools have already used and proven in other fields, is natural to explore their use in untested applications. Recently, the focus has been switching toward developing mathematical models that do not generalize to many models, but rather are very good at solving the problem presented at hand.

Particularly, the problem of Gene Network Inference requires a model that can be scalable, stochastic, and since the network connections are few, it also needs to be sparse. This means that it has to be able to model large matrices with few real values and many zeroes.

The algorithms used now were not designed to meet these requirements, simple ODEs have problems modeling stochastic systems, and it's hard to escalate them to higher dimensions due to the computational limitations. Also, these models do not have an inherent capability to model sparse data. ODEs model the network as a fully connected set, and is only later that any optimization problem fix the transcription rates of the connections.

Non Parametric Bayesian (NPB) methods, a tool first proposed in the 70's, provides a framework where we can model stochastic systems, regardless their size. NPB methods use infinite bounded priors to fit the data to a bounded model. They accomplish this by imposing infinite probabilistic process to known models like factor analysis or mixture of Gaussians. During the last decade, the use of NPB methods has been extending toward different areas of knowledge, like Natural Language Processing, Weather Prediction and Biology.

In this work, I propose the use of two NPB frameworks, the Dirichlet Process (DP) and the Indian Buffet Process (IBP), to create an ad-hoc model for GRN Inference. These processes both attack the problems of scalability, stochasticity and sparsity that the GRN problem has.

The DP clusters groups of co-regulated genes in a dynamic number of clusters, such that the model does not require any tuning if the test network changes. This lets the model have a dynamic clustering over different networks and samples.

The IBP, on the other hand, provides a prior capable of modeling a sparse network with infinite nodes. Using the Infinite Factor Analysis, the model can infer expressions closely regulated with regulatory genes. Furthermore, it also models binary and sparse networks as well.

Since both models are stochastic processes, the proposed model correctly addresses the desiderata when doing modeling of GRN.

In this work, I compare my model with conventional approaches, and provide an analysis of the model dynamics for different networks.

We use synthetic data to test the initial model, and then we use Benchmark Data from the DREAM challenge to test the model with the state of the art.

Finally, I present the results, and provide discussion on the future work and extension that could be done to further improve the model.

審査要旨 要旨を表示する

本論文は「ノンパラメトリックベイズモデルを用いた遺伝子制御ネットワークのモデル化」と題し7章からなり,遺伝子制御ネットワーク推定についての課題を解くための新規手法を提案し,人工遺伝子ネットワークと大腸菌や酵母菌など実際の遺伝子制御回路をもとにその有効性を評価している.

第1章では,遺伝子制御ネットワークの概要,ならびにそのネットワークを解析する際に利用可能なデータとツールについて説明する.また,遺伝子ネットワークが持ついくつかの特性とその基本的な定義を分析している.さらに,遺伝子ネットワークの制御関係を発見するためのいくつかのアプローチを示している.

第2章では,遺伝子制御ネットワークを推定するために有効な方法をいくつか提示している.これらはいずれも微分方程式に基づいており,それらが機能する原理や解決するために用いられるアルゴリズムについても説明する.最後に,これらのアプローチの客観的診断を行い,遺伝子制御ネットワークをモデル化する際に直面する主な問題のリストを作成する.この診断結果を用いて,遺伝子制御ネットワークをモデル化する新しいアプローチを次章で提案している.

第3章では,ノンパラメトリックベイズ法に関する説明を行ったのちに,従来のアプローチを拡張するためにノンパラメトリックベイズ法をどのように用いるかを議論している.この拡張によって,遺伝子制御ネットワーク内の結合を見つけるのに非常に良い結果が得られることが分かる.次に,遺伝子制御ネットワークを,結合されたクラスタおよび転写因子の組として表現するパラダイムを提示する.ここで,転写因子とは因子分析の結果として制御を司るものである.ディリクレ過程とインディアンビュッフェ過程を用いてモデル全体を示し,従来のアプローチを用いて得られるモデルと比較している.さらに,本手法で得られるモデルの方が遺伝子制御の問題を解くためにどのように適しているかを示す.最後に,モデルの訓練やネットワークの重みや結合の学習に必要な統計的推論手法を示している.

第4章では,前章で提案した手法の有効性を示すための実験結果が記述されている.実験には2種類のデータを用いている.まず最初に,ノイズや長さ,結合数といった様々なパラメータを制御する人工遺伝子ネットワークを作成するためにソフトウェアGeneNetWeaverを使用している.これは,(1) 提案アルゴリズムが既知のネットワークと一致する結果を求められるか,(2) 異なるサイズ,結合性の異なる組で構成される動的な遺伝子ネットワークに対してデータに含まれるノイズにかかわらず異なる結合を検出できるか,の2点を検証するためである.クラスタの精度や,誤検出ならびに検出漏れの総数,F値,再現率といった指標を用いて,この結果を解析している.2つ目の実験では実際の遺伝子ネットワークをもとに検証を行っている.まず,3000個以上の遺伝子を持ちながら,結合数は300個程度と少ないことで知られる大腸菌E.Coliに対して実験している.この遺伝子ネットワークは遺伝子の結合性テストにおける標準的なベンチマークである.もう一つの遺伝子ネットワークとして酵母菌を用いている.酵母菌は遺伝子が解読された最初のゲノムの一つであり,遺伝学の研究において重要なものである.遺伝子の結合性解析に用いられる最新のアプローチによる結果と,本研究で提案したアプローチによる結果を比較しその有効性を確認している.

第5章では本研究の成果をまとめている.その中で,提案したアプローチが持つ問題点や今後拡張が可能な点について議論している.また,遺伝子の結合性や遺伝子ネットワークの制御についての今後の研究の方向性についても言及している.

なお,本論文の一部は共同研究によって行われたものであるが,論文提出者が主体となって提案及び実験・分析・検証を行ったもので,論文提出者の寄与が十分であると判断する.

以上これを要するに本論文は,遺伝子制御ネットワーク推定のためにノンパラメトリックベイズモデルに基づく新規手法を提案し,ベンチマーク問題および実際の遺伝子回路の推定において有効性を示したものであり,情報学の発展に貢献するところ少なくない.

したがって,博士(工学)の学位を授与できると認める.

UTokyo Repositoryリンク