No | 216207 | |
著者(漢字) | 瀬々,潤 | |
著者(英字) | ||
著者(カナ) | セセ,ジュン | |
標題(和) | 数量的な生命科学データの解析に向けた分類付きのクラスタリング | |
標題(洋) | Classified Clustering for Quantitative Biological Data Analysis | |
報告番号 | 216207 | |
報告番号 | 乙16207 | |
学位授与日 | 2005.03.09 | |
学位種別 | 論文博士 | |
学位種類 | 博士(科学) | |
学位記番号 | 第16207号 | |
研究科 | ||
専攻 | ||
論文審査委員 | ||
内容要旨 | マイクロアレイなどに見られる近年の生命工学の発展は、大量の数量的な生命科学データを生み出した。そして、それらのデータをどのように生命科学の知識として活かしていくかが問題となっている。数量データの解析には、クラスタリングが利用される。クラスタリングの結果は、生成したクラスタが生命科学の既知の概念と対応が取れたとき、クラスタ内のデータの解釈に利用することができる。しかし、クラスタリングを行うことと、その後のクラス分類、既知の概念との対応付け、が独立して行われているため、必ずしも対応が取れるとは限らず、対応が取れない場合は、数量データの解釈は著しく困難となる。このため、対応の取れるクラスタを発見できるよう、独立したクラスタリングとクラス分類を結びつけ、互いに矛盾の無いクラスタを見つける手法が渇望されている。 本博士論文では、この問題を解決するため、クラス分類付きのクラスタリング"Classified Clustering"を提案する。この手法は、クラスタリングのグループ分割を同一の特徴を持つものに制限し、その分割の中でグループ間の級間分散を最大にする分割を発見する手法である。しかし、級間分散を最大にする分割を発見することはNP困難であるため、探索空間を効率よく枝刈りし、最適解を現実的な時間で回答するアルゴリズムを開発した。そして、酵母のマイクロアレーデータを利用した実験で、このアルゴリズムが高速に動作することを実証した。さらに、Classified Clusteringの応用を2つの異なったデータに対し行い、有用性を確認した。 一つの応用は、酵母のゲノムワイドなcis制御配列の情報と遺伝子発現量データを利用し、Classified Clusteringが既知のcis制御配列と遺伝子発現量制御の関係が導けることを確認した。さらに、cis制御配列の未知の組み合わせと、条件特異的な遺伝子発現制御を確認した。もう一つの応用は、酵母より複雑と考えられている人の遺伝子発現解析への応用である。本論文では肝癌の遺伝子発現データと、患者の病理学的特徴を含むデータに、Classified Clusteringを適用することで、"腫瘍があり"かつ"男性"や、"腫瘍が無く"かつ"肝機能が正常"である、といった病理学的に特徴のある遺伝子クラスタを発見することに成功した。これらのクラスタは、従来からあるk-中心法では見逃されたクラスタである。 | |
審査要旨 | 本論文は、生物学的なデータを対象としつつも、より広範な用途に適用可能なデータマイニング技術について述べたものである。DNAチップやマイクロアレイに象徴されるように、分子生物学における観測技術のハイスループット化が進んでいる。そこでは単なる大規模データの処理のみではなく、適切なデータの解析と解釈、更には、それに基づいた適切な実験計画の立案が不可欠なものになってきている。この目的のために、本論文ではClassified Clusteringと呼ばれるデータの分類手法を提案している。実際の生物学データへの応用例として、酵母の遺伝子発現データ、cis制御配列の組合せデータ、ヒトの肝癌に関する遺伝子の発現データに適用してその有用性を確認している。これらのデータでは、複数の要因や属性の間の非線形な関係が潜在することが想定され、組み合わせ論的な性質を呈して問題を困難なものとしている。本論文では、解析手法の開発を通して、計算量的な考察、探索アルゴリズム、実際の計算機上での実装技術などを扱っており、情報科学としての貢献も目指したものである。 本論文は全6章からなり、第1章で本論文の背景と動機について、第2章と第3章において新たに開発したデータマイニング手法について述べた後、第4章と第5章において実データへの適用例を用いながら、手法の有用性の評価を行っている。最後の第6章において結論と今後の展望について述べている。 第2章では、新たな手法である「Classified Clustering」について述べている。同手法は条件部分に論理積を用いた結合規則(論理積規則)を用いて与えられたデータを分類(クラスタリング)するものである。その際には、データ分類の統計学的な価値(級間分散)を評価関数として、最も価値の高い論理積規則の探索を行う。本章の手法で重要な部分は、新たに開発した(1)システマティックな探索空間の構成法と、(2)探索空間を圧縮するための分枝限定法である。これらによって、提案手法は統計的に最適・準最適な論理積規則を有意度の順に出力する機能を実現している。 第3章では、第2章で提案した手法の効率の評価について述べている。提案手法で用いている最適化問題はNP困難であるが、同手法を実装しで性能評価を行って、現実データの解析に関しては実用的な時間内で解くことが可能であることを確認している。同性能評価は、データ内のサンプル数や属性数の増加が計算時間に与える影響(スケーラビリティ)を評価したものである。また、分枝限定法の効果についても確認している。いずれも、主として、酵母のマイクロアレイデータを用いた実験的な評価方法によっている。 第4章では、酵母のゲノムワイドなcis制御配列と遺伝子の発現量の関係を提案手法によって解析した結果について述べている。ここで重要な点は、cis制御配列の組合せの効果が発現量に及ぼす効果を評価していることである。その際に決定する必要がある情報は、最適解が含むcis制御配列の個数及び、その構成cis制御配列である。提案手法は、この2つの情報を統計的有意さが上位のものから漏れなく枚挙することが可能である。実際に、cis制御配列(群)と遺伝子発現量制御の既知の関係が導けることを確認している。また、これまで未知であった関係も導出されており、遺伝子発現制御機構の新たな候補と期待される。 第5章では、肝癌の遺伝子発現データに提案手法を適用した結果について述べている。これは、患者の病理学的特徴を含むデータを扱ったものであり、従来のクラスタリング手法(k-means法や階層的手法)では得ることができない遺伝子クラスタを発見している。 第6章では、本論文の結論と今後の展望について述べている。個々の手法の有意性については上述の通りであるが、とりわけ、生物学データの解析においては、汎用な応用目指しつつも、実データの解析での有効性の確認が重要であることを述べている。 上述の通り、本論文では、実際のデータ解析を例題として取り上げているが、生物学の多くの局面で複数の要因が互いに作用し合っていることが知られていることから、より広い範囲の解析に貢献する可能性が大きい。各章では、既存手法の不足部分の検討を行い、その上で、目的とするデータ解析に必要な手法を新規に開発している。従って、本論文の大部分が従来手法では成し得ない要素を含み、本論文においてはじめて行われた仕事である。また、情報科学の一般的な問題としての考察も行っており、探索空間の構成手法、可読性を考慮した分類手法など、計算機科学としての貢献も十分成し得るものである。また、各章で導入した手法を実装して良好な実行性能を達成しており、論文中の図表の作成に用いた解析結果の視覚化ツールと共に開発プログラムの公開によって大規模データの解析に向けて実用的な貢献も期待されるものである。 以上を要するに、本論文の内容は、既存公知の技術によって容易に達成可能とはいえず、十分な新規性と有用性を有するものであるので、博士(科学)を与えるに十分なものである。なお、本論文第2章から第5章の一部は共同研究の形態で行われているが、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与が十分であると判断する。 | |
UTokyo Repositoryリンク |