No | 122779 | |
著者(漢字) | 道菅,紳介 | |
著者(英字) | ||
著者(カナ) | ドウカン,シンスケ | |
標題(和) | 複数のSVMsに基づく網羅的タンパク質間相互作用予測手法 | |
標題(洋) | A method based on multiple SVMs for a comprehensive prediction of protein-protein interactions | |
報告番号 | 122779 | |
報告番号 | 甲22779 | |
学位授与日 | 2007.03.22 | |
学位種別 | 課程博士 | |
学位種類 | 博士(科学) | |
学位記番号 | 博創域第316号 | |
研究科 | 新領域創成科学研究科 | |
専攻 | 情報生命科学専攻 | |
論文審査委員 | ||
内容要旨 | 生物を統合化されたシステムとして理解する上で、タンパク質間の物理的な相互作用(Protein-Protein Interaction,PPI)を網羅的に調べることは重要である。しかしながら現状では、ゲノムが明らかにされた全ての生物種について網羅的PPI検出実験を行うことは費用、時間や労働力の制約上困難である。また、これまで明らかにされているPPIは生体内で起こるもののごく一部にすぎず、また偽陽性も多いため、それらに基づく解析は生体システムの誤った理解を招く可能性が指摘されている。そこで本研究では、より効率的なPPIの発見を可能にし、生体システムに関する確かな理解を導く目的で、Support Vector Machines(SVMs)に基づく網羅的PPI予測手法を開発した。 近年のPPI予測手法は、主に酵母をターゲットとし、タンパク質ドメインを予測指標とすることで大幅な性能改善に成功した。しかしながら、これらの手法には共通して、更なる予測性能の向上を妨げる2つの欠点があった。1つは異なるドメインの3つ以上の組み合わせが関与するPPIを考慮できない点で、もう1つはドメイン以外の予測指標を追加利用することが困難な点である。提案手法はこれら2つの欠点を克服した点に特徴がある。 我々はまず、比較的豊富な相互作用データが蓄積されている酵母を用いて交叉検定を行った。その結果、組み合わせを考慮したドメイン、アミノ酸組成、及び細胞内局在の情報が予測に有効であることが明らかとなった。また、提案手法は既存手法を凌ぐF値(精度と感度の調和平均)0.788を達成することができた。相互作用の有無が未知のタンパク質ペアに対し相互作用予測を行うと、SVMのスコアが高いほど、タンパク質の機能の観点から、その相互作用はもっともらしい事が確認された。また、偽陽性を多く含むとされるPPI実験データに対し予測を試みたところ、中でも信頼性が高いと考えられるデータのうち58.6%を正しく予測することができた。これらのことは、本手法がもっともらしいPPIを新規に予測できるのみならず、エラーを含む実験データの信頼性評価にも利用可能であることを示している。次に、我々は哺乳類のタンパク質間相互作用予測を試みた。これまで、ヒト以外の哺乳類については予測器の訓練に十分なPPIデータがなく、PPI予測は困難であった。我々は、マウス等ヒトと進化的に近い生物種についてはヒトのデータで訓練したSVMが有効であることを明らかにし、ヒトについては0.776、マウスについては0.765という高いF値を得た。この結果は、本手法が酵母のみならず哺乳類のPPI予測にも適用可能である事を示している。 ある生物がもつタンパク質の全組み合わせを入力データとし、全PPI(PPIマップ)を予測する問題は、上記のような比較的優れた手法をもってしても膨大な偽陽性が発生することが予想される。そこでまず、我々は本問題が従来考えられていたよりも困難であることを定量的に示し、更なる手法の開発が必要であることを明らかにした。その上で、従来の研究で用いられている負例(相互作用しないタンパク質ペア)は考慮すべき全負例を代表できないとの考えから、複数のSVMsを用いた手法を開発した。酵母とヒトのPPIデータを用い予測性能の検証を行ったところ、用いるSVMsの数、及び1つのSVM当たりに使用する負例の数を増やすほど予測性能は改善された。また1つ以上のCPUが利用可能なハードウェア環境においては、本手法は予測性能の向上のみならずSVMの訓練時間の削減にも有効であることが明らかとなった。本手法により予測されたPPI及びPPIマップは、タンパク質の機能同定、疾患機構の解明や創薬ための重要なリソースとなることが期待される。 | |
審査要旨 | 本論文は、タンパク質間相互作用の有無を、配列情報・局在情報等を組み合わせて予測する手法を開発し、その性能の検証を行ったものである。タンパク質間相互作用の有無に関するデータは、生命システムの理解のために重要である。本来、これらのデータは実験によって得られるべきものであるが、ハイスループットな実験による結果には誤りが多く、バイオインフォマティクスの貢献が求められている。本論文では、従来の手法に比べて予測精度の向上に成功していると判断できる。 タンパク質間相互作用の網羅的な予測を行う場合、予測対象に比べて実際に相互作用するペアの割合が少なく、通常の予測手法では多くのペアを陽性と判定してしまうため、擬陽性を如何に少なく抑えるかが重要である。本論文では、正例に比べ多くの負例を用いることにより、擬陽性を減少させることに成功していると判断できる。また、複数のSupport Vector Machine(SVM)を用い、それぞれ異なった負例を用いて学習することによる予測が試みられているが、個々のSVMの学習を並列に行うことによって速度が向上するメリットはあるものの、予測精度の向上には成功していないと判断できる。 本論文で提案されたシステムはウェブ上で利用可能となっており、ユーザが自ら興味のあるタンパク質ペアの相互作用を予測できることは有用であると判断できる。 本論文の手法は、配列のアミノ酸組成、ドメインの有無、局在性等の情報をSVMで統合化してタンパク質間相互作用の有無を推定するものであるから、個々の情報のどの部分の貢献によって相互作用の有無が決まっているかの知見を得る目的や、人工タンパク質やスプライシングバリアント等の微妙な違いを捕らえて予測する用途への応用は限界があると判断できる。 本論文は、生命システムの解明に重要なタンパク質間相互作用に関する実験を行う際に、必要な予測結果を従来よりも高精度に提供する手法を提案しており、本審査委員会は全員一致で博士(科学)の学位を授与することが適当であると判断した。 | |
UTokyo Repositoryリンク | http://hdl.handle.net/2261/9296 |