学位論文要旨



No 124647
著者(漢字) 北上,純一
著者(英字)
著者(カナ) キタカミ,ジュンイチ
標題(和) 知識情報を活用した時系列解析の方法論の開発と遺伝子発現データへの応用
標題(洋)
報告番号 124647
報告番号 甲24647
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7081号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 特任教授 井原,茂男
 東京大学 教授 油谷,浩幸
 東京大学 教授 浜窪,隆雄
 東京大学 教授 南谷,崇
 東京大学 准教授 中村,宏
 東京大学 教授 坪井,俊
 東京大学 教授 時弘,哲治
内容要旨 要旨を表示する

生物学の課題の一つは生体を構成する遺伝子、タンパク質、分子がどう相互作用し、細胞機能のどのように関与しているかを理解することである。遺伝子やタンパク質は多様なレベルで相互作用をしているため、単に個々の機能を解析するだけではなく、それらの間での相互作用を明らかにして、システム全体として複雑な作用を理解することが重要である。遺伝子全体(ゲノムワイド)な遺伝子の発現情報を得る手段として、マイクロアレイを用いることが一般的に行われるようになってきた。マイクロアレイによる計測技術が進歩するにつれて、時間および空間分解能の高い大量の発現データを効率的に解析する方法論の開発が望まれている。

マイクロアレイ技術は何万ものゲノム全体の遺伝子発現データを効率良くモニタリングするハイスループットな技術として、1990年後半から急速に利用されるようになってきた。最近では、この技術を用いて遺伝子発現データから特異的な遺伝子集合を抽出し、特定の疾患で特異的な発現を示す遺伝子集合(バイオマーカー)や、特定の生物学プロセスと関連のある遺伝子集合などと比較を行い、実験対象の生体内での現象の解明、創薬に用いられている。

マイクロアレイは容易にゲノムワイドな情報を取得できる利点を持つ反面、ノイズが大きくなることがあるという欠点をもつ。マイクロアレイのノイズには実験の過程で生じるノイズと生物学的ノイズがあると考えられている。特に、後者の生物学的ノイズは個々の遺伝子の転写までのメカニズムにそのノイズのレベルが依存するので、統計的な手法などを用いて修正、評価することが困難である。これらノイズが発現遺伝子から特異的な発現を示す集合を抽出する際に、大きな影響を及ぼすためにノイズに強い解析が遺伝子解析において課題となっている。

時間系列で遺伝子発現サンプルを取得したデータに対しては、各遺伝子が示す時間軸方向のデータパターンが類似したものをグループ(クラスタ)とするクラスタリング技法により、特異的な発現遺伝子集合を抽出するのが一般的である。クラスタリングにおいてもやはりノイズの影響を強く受けてしまうために正確なクラスタを抽出できない課題がある。最近では、ノイズに強いいくつかの手法が提案されているが、マイクロアレイのノイズが統計的に処理しにくい性質があるために大きな改善は難しい。

クラスタリングでのノイズによる誤差を解決する他のアプローチは既にある他の生物学的知識情報をアルゴリズムに取り込み不足する情報を補うことである。これによって発現データのみでは曖昧になっていたクラスタリングを補正しくモジュールとして解析することが期待できる。生物学分野の知識情報のデータベースの中で最も情報を多く含むデータベースはGeneOntology(GO)である。GOは現在において急速に充実してきている情報を豊富に含んだ知識ソースで、生物学の機能やプロセス用語を体系的に蓄積している。GOの用語は遺伝子と関連付けられるためこの関係性を用いることによって知識情報を遺伝子に付加することが可能になる。GOは遺伝子の機能と密接な関係を持つことが知られているので、2遺伝子間の類似度をクラスタリング解析時に遺伝子間情報として組み込む方法を用いた。

遺伝子間の付加情報をうまく取り込むためにクラスタリング技術としては遺伝子発現のネットワークを作成してクラスタリングを行う方法を用いた。パターンの相関性が高い関係性を(エッジ)枝としてネットワークを構築し、ネットワーク全体の繋がりの強さを示す指標であるEdgeBetweennessを用いてネットワークによるクラスタリングを行った。

この手法をHUVEC細胞の時系列のTNF刺激実験に対して適用し、クラスタ抽出を行った。これらクラスタに対して遺伝子発現シグネチャー、GOからの用語関連遺伝子集合などと比較を行った。その結果、従来の知見と一致したセルサイクル、免疫機能、脂質代謝機能などの時系列の働きを知ることができた。

審査要旨 要旨を表示する

今日ではマイクロアレイ技術を用いて発現データを用いることが一般的になっており、特に時系列遺伝子発現データの解析は詳細な生物プロセスの解明に重要である。時系列遺伝子発現データの増加に伴って、時系列遺伝子発現データを解析することにより生物をダイナミカルシステムとして理解するための方法論の開発が望まれている。本研究では、全遺伝子を対象に、システマティックに細胞システムレベルのデータ解析を行うときに、既知情報を活用し精度を向上させ、従来では不可能であった時系列の機能解析を行うことを目標に解析手法を提案し、マイクロアレイによって時系列に測定した遺伝子発現データに対して具体的に適用を進め、新たな知見を得ることを試みている。

第1章は序論であり、本論文の動機と目的を論じている。これまでの時系列遺伝子発現データの解析方法について述べ、時系列解析の新しい方法論の重要性を述べている。また、本論文での方法論に至るまでの申請者の研究の経緯について述べている。

第2章は生物学的背景であり、時系列遺伝子発現データの背景について述べている。特に静的な遺伝子発現データとは異なった時系列の遺伝子発現データの解析の必要性について論じている。

第3章は時系列発現データの解析方法に関する背景について論じている。これまでに行われた時系列発現データの解析に関する現在までの研究を総括し、さらに申請者が行ったいくつかの実際問題への適用から、従来の問題点について分析し課題を抽出している。

第4章では抽出した課題を解決すべく、時系列遺伝子発現データ向けの解析方法を提案している。まず、与えられた時系列データを集団に分類しその構成因子である遺伝子のエンリッチメントから機能を推定するために不可欠な高精度なクラスタリング手法の開発を行っている。遺伝子間の関係性をネットワークとしてとらえ、かつ既知の遺伝子情報をまとめたGene Ontologyデータベースを活用することによってノイズの影響を受けにくいクラスタリング方法を実現し、階層的なクラスタとして関係性を表現している。これによって従来ではクラスタリングサイズの制限により検出できなかった機能を検出することを可能にした。さらに、他のクラスタリング手法との比較を行い、本論文による手法がエンリッチメント解析を行う上で優れていることを検証している。

第5章では時系列遺伝子発現データのエンリッチメント解析を改良し、時系列データから機能の時間変化を抽出するという全く新規の試みを行い、具体的な抽出に成功している。従来では、時系列遺伝子発現データに対するエンリッチメント解析は時系列としては得られておらず、ある時間における機能クラスタという形でしか得られていなかった。本論文では時系列の全区間をいくつかの区間に分割するウィンドウを連続的にスライドさせ、各ウィンドウから機能クラスタを抽出することによって機能クラスタの時系列変化を取り出すことを試みている。このためには、あるウィンドウで有意と判定された複数のクラスタからその機能に最も適したクラスタを選択しなければならない。従来では、クラスタの抽象度によって判定結果がまちまちになるという問題点があり、ある機能に対して最適なクラスタを選択することができなかったが、申請者はヒューリスティックな方法によって上記の問題を解決し、与えられた機能を最もよく表すクラスタを取り出すことを可能にすることで、機能をもたらす遺伝子集団が時間的にどのように変化するかを調べることを可能にした。

第6章ではこれまで述べてきた手法を実際のデータに適用して評価することを試みている。本手法を実問題に適用したところ、従来からよく知られている系の振舞いに対しては従来知見と一致する結果を得ている。さらに細胞周期に関して、従来では見過ごされていたその機能の発現を、ダイナミックなクラスタの変化から予測している。また、従来知見と一致することが確かめられている遺伝子集合と新しく得られた未知の遺伝子集合を比較し、どの属性との間で深く関連しているのかを容易に調べることも可能にした。

第7章は結論であり,本研究の成果と今後の展望について述べられている。

以上のように、本論文では様々な手法を駆使したモデル化と新たな手法の開発を行い、実際の生命情報に具体的に適用し、新しい知見を得ている点が特に評価できる。新たな解析の方法論および手法の開発によって従来の時系列発現データの解析方法からは得ることのできなかった、機能を時系列として解析することに成功しており、生命システムの特性についての新しい知見を得ており、今後の生命および情報科学の発展への寄与も大きいと評価できる。よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク