No | 122734 | |
著者(漢字) | ポール トポン クマル | |
著者(英字) | Paul Topon Kumar | |
著者(カナ) | ポール トポン クマル | |
標題(和) | 進化論的計算を用いたマイクロアレイデータの分類とガン関与遺伝子群の検出 | |
標題(洋) | Cancer Class Prediction and Biomarkers Detection Using Microarray Data with Evolutionary Computation | |
報告番号 | 122734 | |
報告番号 | 甲22734 | |
学位授与日 | 2007.03.22 | |
学位種別 | 課程博士 | |
学位種類 | 博士(科学) | |
学位記番号 | 博創域第271号 | |
研究科 | 新領域創成科学研究科 | |
専攻 | 基盤情報学専攻 | |
論文審査委員 | ||
内容要旨 | 1.背景: 癌治療においては,正確な癌患者サンプルの分類は非常に重要であると考えられている.しかし,腫瘍の形態,発生,微視的な外見及び位置にもとづく診断は非常に困難である.なぜなら,異なる癌の腫瘍であっても同じ外見である場合や,同じ処置を施しても,異なる反応を示す場合があるためである.さらに,癌細胞の採取には外科手術を伴う場合があり,危険性を有している.遺伝子発現データに対してクラス分類手法を用いることで,従来の病理学的な手法と比較して,客観的,明白かつ一貫した癌の分類手法の研究が近年盛んに行われている.本研究は,遺伝子発現量は多くの外的要因によって影響されるという仮説にもとづいている.ここで外的要因とは,温度,光,種々の信号など,ホルモンの分泌に影響を及ぼすものや,特定の遺伝子の発現量に影響を及ぼすような種々の病気を指す. 通常,癌細胞は通常の細胞のDNAが突然変異することによって生じる.そのため,通常の細胞と癌細胞の発現量を比較することで,癌の病状を起こす遺伝子を特定することができると考えられている.本研究の目的はDNAマイクロアレイの遺伝子発現量データから,バイオマーカーを同定し,正確でロバストな癌分類モデルを構築することにある.このような研究においては,種々の機械学習的手法にもとづく方法が提案されている.しかし,データサンプルの数に比べて,冗長な部分などを含む遺伝子の数が非常に多いため,これらの手法は,限定された状況下においてのみ有効である. 2.手法: 本論文では,二つの手法を提案します:random probabilistic model building geneticalgorithm (RPMBGA) , majority voting genetic programming classifier(MVGPC).これら二つの手法は,テストデータにおいて,他の手法と比べて非常に高い精度で癌を分類することが可能である.遺伝的アルゴリズムにもとづくRPMBGAは遺伝子の同定のみを行い,クラス分類器を別に必要とするが,MVGPCはそれ自体が分類及び遺伝子同定を行う. RPMBGAは,遺伝的アルゴリズムのような従来の手法と比較して高速である.また,RPMBGAには交叉や突然変異はなく,他の手法と比較してコンパクトな遺伝子セットを同定し,高い精度で分類することが可能である.RPMBGAの初期集団は,多くの遺伝子を選択する状態にある個体によって形成される.RPMBGAは,徐々に個体が選択する無関係な遺伝子を減らし,最終的には少数の遺伝子を選択する個体のみを残す.RPMBGAは一度にひとつ以上の遺伝子を選択するような集団を生成することで,遺伝子間の相互作用を考慮することが出来る.このような方法は,一つの遺伝子の分類精度に基づいて,一度に一つの遺伝子を選ぶランクベースの方法より優れている.なぜなら,筆者らは最も高い精度をもたらす遺伝子のセットは,個々の遺伝子ではそれ以上の分類精度をもたらさないということを発見したためである.さらに,個々の遺伝子及び多くの遺伝子を含む遺伝子のセットでは,完全な分類を行うことは出来ない.多くの遺伝子を含む集合では,無関係な遺伝子が含まれることで分類精度を下げてしまう.RPMBGAは以上の点で他手法と比較して優れているものの,RPMBGAにおいては同定される遺伝子セット及び分類精度は,適合度の算出に用いる分類器に大きく依存しまうという問題点がある. MVGPCは遺伝的プログラミング(GP)に多数決手法を導入することで,GPより正確に,さらにRPMBGAより高い信頼性で分類することが可能である.MVGPCは異なるGPのルールを統合することで,テストサンプルの種類の推定を確実かつロバストに行うことが出来る.MVGPCにおいては,独立したGPの進化において得られた複数のルールをひとつずつテストサンプルに適用し,それぞれのルールは同定した癌の種類に対して投票を行う.テストサンプルの種類は,最も支持数の多かった種類に決定される.MVGPCの基本的なアイディアは,GPによって進化した個々のルールでは,サンプルの種類を正確に推定することは困難であるが,ルールが集団で推定した場合は高い信頼性で推定することができるという考えに基づいている.しかし,多数決手法が有効であるかどうかは,多数決に用いるルールに数(Ensemble size)及び,一つ一つのルールの誤判定率に依存する.Ensemble sizeが小さい場合や,それぞれのルールの誤判定率が0.5以上である場合,MVGPCは個々のルールを単独で適用した場合より低い性能しか示すことが出来ない.そこで,本論文では最も高い性能を示す,最適Ensemble sizeを調査する. 本論文ではさらに,バイオマーカーの同定には,まず高い精度の分類器を生成し,その後で,分類器に含まれるルールの中で,高い頻度で出現する遺伝子を選出する方法を提案する.選出される遺伝子の定常的な頻度分布を得るには,マイクロアレイデータに対して複数回MVGPCを適用する必要がある.この手法は,ある特定の遺伝子はどのような遺伝子選択アルゴリズム及び分類器を用いた場合でも,高い頻度で出現するという点にもとづいている.高い頻度で選択される遺伝子は,癌のバイオマーカーである場合と,生物学的には無関係であるが,トレーニング及びテストサンプルと非常に相関のある遺伝子である場合がある. 本論文の主要な提案は以下の点である: ・最適なEnsemble sizeの決定手法. ・多数決を用いたテストサンプルの種類の同定. ・マイクロアレイデータのバイオマーカーの抽出. 3.結果: 本論文では,Affymetrix のGeneChipソフトが生成する遺伝子発現データを用い,二分類及び多分類の分類を行った.上記のマイクロアレイデータに対してRPMBGA及びMVGPCを適用することで,他の手法と比較して高い精度で分類することに成功した.MVGPCはRPMBGAより正確に分類することが可能である.MVGPCにおけるテストデータの正確度は,AdaBoostとGPの統合手法を含む他の手法と比較して,非常に高い結果を示す.さらに,MVGPCによって選択された遺伝子のうちいくつかは,本論文で扱った癌と関係があることが知られている. さらに,MVGPCをマイクロアレイ以外のデータに適用し,MVGPCによる正確度は,GPで獲得した単独のルール及び複数のルールで単純に同定を行った場合より高い結果を示した. 4.結論: MVGPCは遺伝子発現量に基づく癌診断,そして癌のバイオマーカーの同定を行うのに,正確かつロバストな計算手法であると考えられる.AdaBoostは,弱学習器を統合することで,推定精度を改善する手法であるが,遺伝子発現データの分類においては,MVGPCがAdaBoostとGPの統合手法を上回る性能を発揮することが分かった.このような結果となった理由は,AdaBoostによってGPで獲得されたルールは全てのテストサンプルを用いない場合があるのに対して,MVGPCによって獲得されたルールは全てのテストサンプルを用いるためである. しかし,MVGPCが有効であるかは,個々のルールの性能に依存し,MVGPCによって扱われる遺伝子の数は非常に多いものとなる.さらに,MVGPCの実行時間は,大きな多分類のマイクロアレイデータの場合,他の手法と比較して,非常に長くなるという問題点がある.これらの点は今後の課題であると考えられる. | |
審査要旨 | 本論文は進化論的計算を用いたマイクロアレイデータの分類とガン関与遺伝子群の検出と題し,9章からなり,遺伝子発現量の分類及びバイオマーカの同定を主題とし,マイクロアレイなどのデータを進化論的計算によって解析する手法を提案し,提案手法である遺伝的プログラミングによるルール統合手法の有効性を実験的に検証している. 1章では本論文の導入が行われている.研究背景及び研究目的,これまでに提案されている癌分類手法の利点や欠点について説明している. 2章では遺伝子が発現するまでの流れ,遺伝子発現量測定手法,Affymetrix GeneChipソフトによって生成されたマイクロアレイデータの様々な特徴について議論している.また,幅広く用いられているマイクロアレイデータの詳細及び事前処理手法について説明している. 3章では,マイクロアレイデータから重要な遺伝子を抽出する決定論的及び確率的計算手法の詳細について説明している.マイクロアレイデータは,サンプル数と比較して,非常に多くの遺伝子を含んでいるのが特徴である. 4章では,様々なクラス発見及び同定手法の説明をしている.クラス発見とはサンプルを似たサンプル同士に分類する作業を,クラス同定とは新しいサンプルを既知のクラスにラベル付けする作業を指している.クラス発見は教師なし学習であり,クラスタリング手法が幅広く用いられている.クラス同定は教師あり学習であり,様々な機械学習手法が用いられている.この章では様々なクラスタリング手法及びクラス同定手法の説明をしている. 5章では,ランダム確率モデル遺伝的アルゴリズム(RPMBGA)を提案している.RPMBGAはGAの拡張であり,マイクロアレイデータから有用な遺伝子を選択するのに用いる.RPMBGAでは,遺伝子は確率分布にしたがって選択される.この確率分布は前の世代の分布と現在の世代の周辺分布についての,ランダム性を伴う重みつき平均によって更新される.はじめに,サポートベクターマシーン(SVM)及びk-Nearest Neighbor(kNN)を分類器として用い,遺伝子を一つ一つ用いた場合と,すべてを同時に用いた場合で分類する.さらに,Signal to noise ratioを用い,一つの遺伝子のデータ同定能力にもとづいて,一度に一つの遺伝子を選択する手法で分類している.最後に,SVM及びkNNを分類器としてRPMBGAによって実験を行っている.RPMBGAによって選択された遺伝子セットの分類精度は,一つ一つの遺伝子,全ての遺伝子,Signal to noise ratioによって選択された遺伝子のサブセットより高いものとなっている.さらに,RPMBGAによって選択された遺伝子セットのサイズは,GAやPBILなどの従来の進化論的計算によって選択されるセットよりコンパクトなものとなっている.RPMBGAによって選択された,もっとも高い分類精度の遺伝子セットに含まれる遺伝子は,単独では高い精度で分類することができない.そのため,最良の分類を行う遺伝子セットの遺伝子間には相関関係があると考えられる.一方で,RPMBGAなどの進化計算手法では,一度に複数の遺伝子を選択するサブセットを生成するため,遺伝子間の依存関係が保持され,高い分類が可能となっている. 6章では,GPのマイクロアレイデータの解析への適用について説明をする.様々な遺伝子選択手法や分類手法が提案されているが,選択される遺伝子の正確さ及び分類精度は,分類器の能力に大きく依存している.遺伝的プログラミングは,分類器であると同時に遺伝子選択も行うことができるという利点を持つ.さらに,獲得されたルールは分かり易い関数で与えられるため,定量的な遺伝子間の関係を推定することができる.しかしながら,マイクロアレイデータに対する実験の結果,クロスバリデーションを用いることが出来ないため通常のGPにより得られた単独のルールでは分類精度が必ずしも高くないことが示されている. 7章では,Majority Voting Genetic Programming Classifier (MVGPC)を提案してしている.MVGPCは独立した試行で得られたGPルールを統合することで,分類精度を改善した手法である.この手法は信頼性が高く,ロバストな分類を行うことができる.この章では,最適Ensemble Sizeの決定手法,ルール統合手法を用いたテストサンプルのラベル推定の方法,マイクロアレイデータからのバイオマーカの抽出方法について説明している.バイオマーカの同定手法として,はじめに分類器を生成し,その後で獲得されたルールの中で頻出の遺伝子を抽出するという手法を提案している.遺伝子の定常的な頻度分布を獲得するためには,MVGPCをマイクロアレイデータに対して複数回適用する必要がある.様々なマイクロアレイデータに対してMVGPCを適用することで,AdaBoost+GPなどの他の手法と比較して優れた性能であることを示している.さらに,MVGPCによって選択された遺伝子のうちいくつかは,知られている癌関与遺伝子と非常に深い関係があることを確かめている. 8章では,MVGPCをマイクロアレイ以外のデータに適用し,金融データなどに対してもMVGPCが有効であることを検証している.このデータではマイクロアレイデータの場合とは異なり,非常に多くのサンプルを用いることができる.実験結果から,GPを単独で用いた場合と比較して,MVGPCは高い精度で分類できるという結果を得ている. 9章では,本論文の結論及び本研究の課題について述べている. 以上これを要するに本論文は,進化論的計算に基づいた分類学習手法であるRPMBGAとMVGPCを提案し,遺伝子発現データの分類及び癌のバイオマーカの同定に適用することでその有用性を実証しており,情報学の基盤の発展に貢献するところが少なくない. したがって,博士(科学)の学位を授与できると認める. | |
UTokyo Repositoryリンク | http://hdl.handle.net/2261/9286 |