学位論文要旨



No 214431
著者(漢字) 馬見塚,拓
著者(英字)
著者(カナ) マミツカ,ヒロシ
標題(和) 生物学上の配列解析のための確率的知識表現と機械学習手法の研究
標題(洋) Stochastic Knowledge Representations and Machine Learning Strategies for Biological Sequence Analysis
報告番号 214431
報告番号 乙14431
学位授与日 1999.09.20
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第14431号
研究科
専攻
論文審査委員 主査: 東京大学 教授 宮野,悟
 東京大学 教授 清水,謙多郎
 東京大学 助教授 今井,浩
 東京大学 助教授 阿久津,達也
 統計数理研究所 助教授 樋口,知之
内容要旨

 本研究は、分子生物学の配列解析における諸問題に対し、新しい確率的な知識表現を構築するとともに、それらを学習する新しい機械学習手法を確立したものである。

 分子生物学では、ヒトゲノム計画に代表される遺伝子解析プロジェクトの進展により、現在、大量の遺伝子配列が解明されつつあり、今後、この配列は膨大なものになると予想されている。例えば、2000年には、ヒトの30億文字にも及ぶ全遺伝子配列の決定が期待されている。遺伝子配列データは、生命現象を解明する鍵を圧縮保持していると考えられるので、これらのデータの蓄積は分子生物学上の基本的な情報の蓄積と言ってよいと思われる。

 その一方で、蓄積されたそれら基本的なデータから、より高次の情報を抽出するための、計算機による配列解析の技術が、生物学はもとより、医学、薬学、農学など多くの関連分野から求められている。一方、計算機科学においては、与えられた多数の事例から規則を自動的に抽出する[機械学習」と呼ばれる技術が、90年代に入り成熟期を迎えており、豊富なデータが与えられる分子生物情報処理の諸問題に対して特に有効であろうと期待される。

 本研究では、特に、配列解析において最も重要なタンパク質構造予測に関連する4つの問題に対する新たな機械学習手法を構築した。本論文の方法に共通の注目すべき特徴は、エラーやノイズが混入しやすく、不確実性の高い分子生物情報データを表現するために、頑健な確率的知識表現及び確率的規則の枠組およびその学習手法を新たに確立したことにある。

 1章は序文であり、本研究の動機と目的、および構築手法それぞれの概要を述べ、最後に本論文の構成を説明する。

 2章は、本論文で扱う分子生物学上の問題、および新しい知識表現形と学習手法について述べる。本章の前半は、分子生物学の基本的な用語・概念の説明から始まり、タンパク質立体構造予測、タンパク質の各クラスを表現するプロファイルの作成、機能部位を識別するための特徴配列であるモチーフの抽出・表現という3つの問題について述べる。後半は、機械学習、特に確率的知識表現の学習における基本概念の説明から始まる。そして、3〜6章までの各章で述べる4種類の確率的知識表現、すなわち、有限分割型確率的規則、有限分割型確率的ネットワーク、隠れマルコフモデル、及び確率的木文法を定義する。さらに、それら表現形の学習に関連する3種類の学習手法、すなわち、最尤法、記述長最小基準(Minimum Description Length(MDL)Principle)に基づく学習手法、及びBaum-Welchアルゴリズムについて説明する。

 3章から6章までの各章は、本論文で新たに確立した手法それぞれについて述べ、さらに、各手法の評価のために行った計算機実験の結果について述べる。本研究では、本論文の各手法をすべて計算機実験により評価したが、その結果、各評価においていずれの手法も、当該分野で最有力とされている手法と同等または凌駕する性能を達成し、また、生物学的な知識発見においても成功した。

 3章では、立体構造未知のアミノ酸配列に対し、代表的なタンパク質二次構造の一つであるヘリックスの領域を予測する手法について述べる。本章では、テスト配列の各領域がヘリックスであるかどうかを予測する知識表現形として有限分割型確率的規則を定義し、規則の構造を最適化する手法として、記述長最小基準による手法を確立した。本研究は、記述長量小基準による実問題での先駆的な成功例である。計算機実験による評価では、相互の配列相同性が25%以下の立体構造既知のタンパク質群を学習およびテストデータに用い、テストデータに対して81%の予測率を挙げた。また、同一のデータで他手法と比較した場合、ニューラルネットワークに基づく方法による予測率75%を上回り、手法確立当時、最高精度のRostとSanderの方法による予測率と同程度に達した。加えて、これら比較手法に対して、本章の方法は、学習された規則が理解可能な形で表現でき、かつ、学習速度が速いという長所を有している。

 4章では、同一の構造もしくは機能を持つ多数のタンパク質の配列から、内在する残基間の相互関係を抽出し、確率的ネットワークとして表現する方法について述べる。本章では、残基位置をノード、残基間の相互関係をアークで表現する有限分割型確率的ネットワークおよびこのネットワークの(近似)記述長を新たに定義する。さらに、このネットワークの準最適な構造を記述長最小基準及びgreedyアルゴリズムにより効率的に求める手法を新しく確立した。本研究は、記述長最小基準が有効であることをこの領域において初めて実証したものであると言える。計算機実験による評価では、EF-handと呼ばれる立体構造のCa結合部位の配列を使用し、この部位の有限分割型確率的ネットワークを生成した。得られたネットワークが示した残基間の相互関係は、それぞれ、生物学的に知られているこのCa結合部位固有の特徴を捕えることに成功しており、本方法が生物学的知識を見つけ出す有効な手法であることを示唆していた。

 5章では、隠れマルコフモデル(Hidden Markov Model(HMM))の新しい学習手法を提案する。HMMは、共通の構造や機能を持った、核酸やアミノ酸配列群を表現可能な確率的知識表現として、分子生物情報処理の分野でも近年広く使用されつつある。HMMに対しては、Baum-Welchという効率的な学習アルゴリズムが知られていたが、Baum-Welchは「教師なし学習」であるため、分子生物学上の実験により得られる学習データ数が少なく、テスト配列に対する精度が非常に低いことがままある。そこで、本章では、HMMの「教師あり学習」手法を新たに確立した。これまでHMMの「教師あり学習」手法は無く、本手法が初めてそれを可能にした。計算機実験による評価では、実際のアミノ酸配列を用い、確立手法が、Baum-Welchを含むHMMの2つの著明な教師なし学習手法およびニューラルネットワークに基づく方法による識別誤り数を大きく減らすことを示し、確立手法が従来手法の精度改善に貢献することを示した。

 6章は、立体構造未知のアミノ酸配列に対し、タンパク質立体構造の骨格でおるシートの位置及びその構造を予測する方法について述べる。シートは、代表的な二次構造の一つであるが、アミノ酸配列上離れた複数の領域からなる構造でおり、その遠距離相互作用のために予測が難しい。この遠距離相互作用を考慮し、アミノ酸配列上のシートの位置のみならずその構造をも予測できれば、それは大まかな三次構造にも相当し、タンパク質構造予測において大きな前進となる。この現状に対し、本章では、シート内に含まれる遠距離相互作用を捕えることが可能な確率的木文法を定義し、さらに、この木文法に対し、Baum-Welchアルゴリズムの拡張に相当する効率的な学習アルゴリズムを新たに構築した。これまで、このような遠距離相互作用を抽出する体系化された手法は無く、本手法が初めてそれを可能にしたと言える。計算機実験による評価では、相互の配列相同性が25%以下の立体構造既知のタンパク質群を学習およびテストデータに使用し、テストデータのいくつかのシートの位置及び構造をほぼ正確に予測し、それらの構造間に相同性がおることを示した。この相同性は、他の手法によって今まで発見されておらず、本章の方法が生物学的な知識発見を達成しており、今後、科学的発見のツールとして利用可能であることを示唆している。

 7章は、結論および今後の展望からなる。結論では、本論文の4つの手法相互の関連をいくつかの観点から総括する。今後の展望においては、現在の技術の限界、および今後、考察すべき課題について論じる。

審査要旨

 本論文は、配列解析において最も重要な課題であるタンパク質構造予測に関して、頑健な確率的知識表現及び確率的規則の枠組を新たに導入し、そのもとでそれらの構造に関する知識を学習する新しい機械学習手法を確立し、その有効性を計算機実験によって実証したものである。

 第一章の序文では、計算的方法論の必要性と、本論文で研究している問題及びそれに対する計算論的手法が概観されている.

 第二章は、第三章から第六章で議論する問題を計算論的に取り扱うことができるように問題を定式化され、そのために新たに確率的知識表現と機械学習法が定義されている.

 第三章は、立体構造未知のアミノ酸配列に対し、そのヘリックスの領域を予測するために、知識表現形として有限分割型確率的規則という知識表現を考案し、その規則の構造の最適化を記述長最小基準によって行うという手法を確立している.計算機実験による評価では、相互の配列相同性が25%以下の立体構造既知のタンパク質群を学習及びテストデータに用い、テストデータに対して81%の予測率を挙げた。この精度は、ニューラルネットワークに基づいたRost & Sander方法の予測率75%を上回っており、学習速度も速く、この方式の有効性が実証されている.また、この研究は、記述長最小基準による実問題での先駆的な成功例でもある。

 第四章では、同一の構造もしくは機能を持つ多数のタンパク質の配列から、内在する残基間の相互関係を抽出するために、知識表現として、第三章で導入した有限分割型確率的規則を発展させた有限分割型確率的ネットワークを新たに導入し、このネットワークの準最適な構造を記述長最小基準及びgreedyアルゴリズムにより効率的に求める手法を確立している。計算機実験による評価では、EF-handと呼ばれる立体構造のCa結合部位の配列を使用し、その実験結果によると、生物学的に知られているこのCa結合部位固有の特徴を捕えることに成功し、この方法が生物学的知識を見つけ出す有効な手法であることが示唆されている。

 第五章では、隠れマルコフモデル(Hidden Markov Model(HMM))のsupervised学習という新しい学習手法を構築している.これまでHMMのunsupervised学習についでは、Baum-Welch法があったが、supervised学習については、この研究で初めてその方法が構築された.MHC結合ペプチッドデータを使った計算機実験では、Baum-Welch法とニューラルネットワークに基づく方法との比較がおこなわれ、この方法の有効性が確かめられている.

 タンパク質の代表的な二次構造の一つであるシートは、アミノ酸配列上離れた複数の領域からなる構造であることが多く、その遠距離相互作用のために予測が難しい。第六章は、立体構造未知のアミノ酸配列に対し、シートの位置及びその構造を予測すために、シート内に含まれる遠距離相互作用を捕えることが可能な確率的木文法を新たに導入し、この本文法に対し、Baum-Welchアルゴリズムの拡張する形で効率的のよい学習アルゴリズムを構築している.計算機実験による評価では、相互の配列相同性が25%以下の立体構造既知のタンパク質群を学習およびテストデータに使用し、テストデータのいくつかのシートの位置及び構造をほぼ正確に予測し、それらの構造間に相同性があることを示した。この相同性は、他の手法によって今まで発見されておらず、本章の方法が生物学的な知識発見を達成しており、今後、科学的発見のツールとして利用可能であることを示唆している。

 7章では、本論文の4つの手法の相互関連が総括され、現在の技術の限界、および今後、考察すべき課題についての展望が示されている.

 なお、本論文の第三章は山西健司氏と、第六章は安倍直樹氏との共同研究であるが、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与が十分であると判断する。

 したがって、博士(理学)の学位を授与できると認める。

UTokyo Repositoryリンク