学位論文要旨



No 123922
著者(漢字) 広瀬,修
著者(英字)
著者(カナ) ヒロセ,オサム
標題(和) 状態空間モデルを利用した時系列遺伝子発現プロファイルからの統計的推測
標題(洋) STATISITICAL INFERENCE OF GENE NETWORKS FROM TIME COURSE GENE EXPRESSION PROFILES USING STATE SPACE MODELS
報告番号 123922
報告番号 甲23922
学位授与日 2008.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第167号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 今井,浩
 東京大学 教授 中井,謙太
 東京大学 准教授 木下,賢吾
 東京大学 教授 竹村,彰通
 東京大学 教授 清水,謙多郎
 産総研 研究チーム長 堀本,勝久
内容要旨 要旨を表示する

By ingeniously interacting enormous number of biochemical molecules, cells grow, divide, and differentiate themselves, and maintain their homeostasis. Even the same biochemical molecule can vary its function according to the situation such that when and where it exists in a cell, in what level of differentiation, or cells are in what condition such as heat, cold, and starvation. Thus, for understanding living organisms, it is insufficient to understand a function of each biochemical molecule, and it is essential to study relationships or networks between biochemical molecules. A gene regulatory network, one of such networks between biochemical molecules, describes the control system of gene expressions. Though many researchers have studied reconstruction of gene regulatory networks from time course gene expression data, existing methods for gene network estimation have been limited, mainly because the length of the time course data is fairly short, e.g. typically less than 10, whereas the number of genes involved ranges from 102 to 104. Obviously, the length of time course gene expression profiles is not sufficient to infer such a large gene network. For example, the maximum likelihood estimator of the vector autoregressive model does not exist if the number of genes is greater than the length of the time course. In this thesis, we challenge the imbalance between dimensionality and the length of time course and propose a novel method to infer large scale gene networks and an extension of the method.

A key idea to overcome the imbalance is to explore temporal networks of the transcriptional modules which are sets of genes sharing a common function or are involved in the same pathway rather than the use of gene-level networks. In the context of gene expression analysis, the transcriptional modules may be defined by the groups of transcriptionally co-expressed genes. In this thesis, we provide an approach to identify the potential transcriptional modules and map them onto the gene-level networks, i.e. the module-based gene networks. The proposed method is based on the state space model which has a potential to construct large gene networks from time course gene expression profiles. We applied the proposed method to the time course gene expression profiles of human umbilical vein endothelial cells during growth factor deprivation-induced apoptosis. The estimated gene network suggested that the TRAF1 gene played an important role for the cell cyclearrest and inflammatory response during apoptosis.

The extension of the proposed method is the mixture of state space models.Recently, novel kinds of time course gene expression profiles that existing methods may fail to analyze have appeared. Baranzini et al. investigated the longitudinal gene expression change of multiple sclerosis (MS) patients with treatments of recombinant interferon B (rIFN-B). In this data set, each MS patient is characterized by a gene expression matrix whose column vectors are gene expression vectors for corresponding observed time points. They aimed at classifying 53 MS patients, composed of 33 good responders and 20 poor responders for the therapy of rIFN-B.Hence, the problem is to classify samples where each sample is characterized by matrix data. In this thesis, we present a novel clustering method based on a mixture model that make use of time series of datasets effectively. State space models are used as component models of the mixture in order to handle high dimensional time series and to avoid the over-parameterization by considering dimension reduction.The proposed method addreses the following tasks: (1) clustering samples according to temporal patterns of gene expressions, (2) automatic detection of genes that discriminate identified clusters, (3) estimation of a gene network for each cluster. We applied the proposed method to the dataset of MS patients.

As a result, we succeeded to separate MS patients according to the response level of the therapy of rIFN-B, and to select genes that discriminate groups of patients.

審査要旨 要旨を表示する

生命を理解するためには,個々の生化学物質を研究するだけでは不十分であり,複数の生化学物質の関係,すなわち,物質間のネットワークを捉えることが必要不可欠である.これは,細胞は自身を成長・分割・分化させて恒常性を維持することを,非常に多くの生化学的分子を巧妙に相互作用させることで実現するわけであるが,同一の生化学的分子であってもその分子がどのタイミングで細胞のどの場所に存在するかという条件や分化のどの段階にあるかに応じて,その生化学的機能が変わりうるからである.生化学物質問ネットワークの一つである遺伝子調節ネットワークは,遺伝子発現の制御関係を表現したネットワークである.これまでに時系列発現データから遺伝子調節ネットワークを推定する方法について多数の研究がなされてきたが,現状ではその適用範囲にまだ制限がある.その理由は,おもに時系列遺伝子発現データの次元数(遺伝子数)と時系列の長さの極端な不均衡にある.典型的なものでは,時系列の長さが10程度である一方,次元数は数万に達するようなケースがあり,この場合,時系列発現データの長さは大規模な遺伝子ネットワークを推定するのに不十分である.たとえば,遺伝子の数が時系列の長さよりも大きい場合,ベクトル自己回帰モデルにおける最尤推定の解は存在しない.本論文では,この次元と標本数の不均衡に挑戦し,大規模な遺伝子ネットワークの推定法とその拡張について研究を行っている.

まず,本論文においては,その不均衡を克服するために,機能を共有する遺伝子群のネットワーク,すなわち,転写モジュールのネットワークを捉えることを目指した.具体的には,潜在的な転写モジュールを特定し,遺伝子問のネットワークにマップする方法を提案している.提案手法は大規模な遺伝子ネットワークを推定可能とする状態空間モデルに基づいており,そのための次元圧縮・過学習・遺伝子間因果の検定等の諸問題に対する解決策を提示している.実際に本論文の提案手法を出芽酵母の細胞周期発現プロファイルに適用する実験を行ったところ,その結果抽出された各遺伝子群に含まれる遺伝子が顕著に機能的な関連をもっている等の優位性を確認できた.そしてさらに観測時点数が少ないデータでの解析も通して,繰り返し測定を利用することが有用であることを示した.さらに,アポトーシスを誘導したヒト血管内皮細胞の時系列発現データに本論文の提案手法を適用した結果,TRAF1遺伝子がアポトーシス中での細胞周期の停止と炎症反応に重要な役割を果たすことが示唆された.これにより,超高次元で観測時点数が極端に小さい時系列遺伝子発現データからの大規模な遺伝子ネットワークの有効な推定法の提案に成功しており,そのソフトウェアを公開することも実施している.

また本研究では,上述の提案手法を状態空間モデルについても当てはめ,その混合分布を考えるといったさらなる拡張も行っている.そこでの着眼点は次の通りである.最近,既存の解析法では対応できない新しい種類の時系列発現データが報告されてきている.Baranziniらは,多発性硬化症患者のインターフェロンβ治療に対する長期的な遺伝子発現変化について調べており,そのデータセットでは,各多発性硬化症患者は,各列がある時刻の遺伝子発現ベクトルに対応する遺伝子発現行列で特徴づけられる.各患者は,治療経過に応じて,経過良好および経過不良のどちらかに分けられる.このデータ解析を行う上で一つの有力な方法として考えられるのが,遺伝子発現行列で特徴づけられる標本の分類であり,本論文ではこの問題に取り組んでいる.具体的には,時系列データを効果的に利用することのできる混合分布を基礎とした新しいクラスタリング手法を提案している.超高次元の時系列データを適切に取り扱うため,次元圧縮を考慮した状態空間モデルを混合分布の構成モデルとして利用している.提案手法の特徴として次の3つがあげられる.(1)遺伝子発現の時間変化の構造を捉えたクラスタリング,(2)各クラスターの差別化に重要な役割を果たす遺伝子の自動探索,(3)各クラスターにおける遺伝子ネットワーク推定.提案手法を前述のデータに適用した結果,治療結果に応じた分類,および,各群を分ける遺伝子の抽出を可能にしており,提案手法の有効性を確認することができた.

以上をまとめると,本論文は状態空間モデルを現実的な大規模遺伝子ネットワーク推定へ適用する過程で発生する様々な問題を解決し,それによって時系列遺伝子プロファイルからの遺伝子ネットワークの統計的推定を可能であることを示し,クラスタリング問題への展開も図ったものである.また,本論文のもととなった成果の多くは共同研究によって得られたものであるが,申請者が主体的に研究を推進して得られたものであることを確認している.よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク