学位論文要旨



No 212501
著者(漢字) 浅井,潔
著者(英字)
著者(カナ) アサイ,キヨシ
標題(和) 確率モデルによる遺伝子情報処理の研究
標題(洋)
報告番号 212501
報告番号 乙12501
学位授与日 1995.10.12
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第12501号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 甘利,俊一
 東京大学 教授 伏見,正則
 東京大学 教授 岡部,靖憲
 東京大学 教授 中野,馨
 東京大学 助教授 合原,一幸
内容要旨

 本論文は、隠れマルコフモデル(HMM)による遺伝的配列の解析と、階層的な立体構造記述と文法的な規則を用いたタンパク質立体構造予測に関する研究報告である。

1 遺伝子情報処理

 遺伝的配列の解読は、近年急速に進んでいる。一方、これらの遺伝的配列の持っている「意味」の解明、すなわち、遺伝的配列に生物についてのどの様な情報が含まれており、どの様にしてそれが実際の生体の中で発現するのか、は重要な課題であるが、ほんの一部が解明されただけである。急速に増え続けているデータベース上の遺伝配列の「意味」を解明し、生命現象の本質に迫るためには、情報学のさまざまな手法と、高速な計算機による大量の情報処理が必要とされている。情報学の立場から遺伝的配列の「意味」を解読する学問分舒を遺伝子情報処理(Genome Informatics)と呼ぶ。

2 隠れマルコフモデルによる遺伝的配列の解析

 遺伝的配列には、生物を定義する情報が、進化の結果として蓄積されているから、遺伝的配列の解析は、遺伝子情報処理の中心的な課題である。進化の過程は確率的な要素を含むものだと信じられているから、遺伝情報の解析には、確率的な解釈を与えるのが自然である。筆者は、主に音声認識に用いられていた隠れマルコフモデル(HMM)という確率モデルを、この分野に応用し、タンパク質のアミノ酸配列のモデル化と2次構造予測、DNAのシグナル配列のモデル化・判別等を行なった。

 タンパク質のモチーフの解析のため、分岐や大局ループのない簡単なネットワークを持つHMMを用いてCytcrome Cの配列のモデル化を行なった。Cytcrome Cの配列は、CXXCHというパターンを持つが、HMMを用いることにより、XXの部分の配列のパターン及びCXXCHの前後の配列のアミノ酸の出現頻度も出力確率として学習され、従来使われていた記号的なモチーフ表現や頻度分布に比べて、より強力にパターンを特徴づけることに成功した。また、1993年頃から盛んになったHMMによるマルチプル・アラインメントは、Berger-Mansonの逐次法によるものと本質的に同じものであることを明らかにした。さらに、音声認識で用いられたHMMのネットワーク自動生成法(SSSアルゴリズム)を用いて、タンパク質配列の分類を試みた。

 HMMによるタンパク質2次構造予測については、「タンパク質の立体構造予測」の項で後述する。

 DNA上でRNAへの転写開始位置付近には特徴的な配列パターンを含むプロモータ領域が存在する。遺伝子の発現はほとんどこのプロモータによって制御されているから、プロモータ領域の配列のモデル化・判別は遺伝情報の意味の解明には欠かせない。従来は標準パターンや単純た頻度分布によるモデル化・判別中心であったが、プロモータ領域の判別に有用たHMMを学習することに成功した。ここでは、HMMのパラメータの学習と同時に、遺伝的アルゴリズムによるHMMネットワークの自動生成法によって、最適のHMMネットワークを求める手法を考案して用いた。これは、HMMのネットワークの解の候補を多数の疑似遺伝子の形で表現し、世代毎に遺伝子変形(突然変移と交差)と適合度による淘汰を行うことを繰り返して局所最適解を探すものである。突然変移のうち、挿入、削除は状態の挿入、削除によって実現し、置換は結合行列の要素間の置換すたわち結合関係の変更で実現した。交差は、疑似遺伝子をそのまま交差させて実現した。これはHMMネットワークの部分的な入れ換えに対応している。

3 タンパク質の立体構造予測

 遺伝子に書き込まれた情報が、生体の機能として現れる場合、そののほとんどは、タンパク質の機能を通じて実現されている。タンパク質の機能はその立体構造と密接な関係があることが知られているから、タンパク質の立体構造の解明は非常に重要であるが、立体構造の実験による決定は非常に困難で、アミノ酸配列からその立体構造を予測する研究が注目されている。

 筆者は、HMMを用いたタンパク質2次構造予測、文法的規則を用いたタンパク質立体構造予測の提案、階層的構造記述(MSSD)による立体構造の表現、MSSDを用いた立体構造の予測、MSSDと連続分布HMMを用いたタンパク質立体構造の分類を行なった。

 HMMを用いたタンパク質の2次構造予測は、ヘリックス、シート、ターンなどの2次構造のアミノ酸配列をそれぞれHMMに学習させ、構造が未知の配列に対し、どの部分がどの構造に対応するかを、HMMからの出力確率によって推定することによって行なった。HMMのネットワークは複雑度が一定値以下のものすべてを自動的に生成して、学習結果の確率がもっとも高くなるものを採用した。HMMの出力記号として、アミノ酸1個を用いるよりも、連続する2個アミノ酸の組を用いた方が正確な予測が出来ることがわかった。

 さらに、正規文法をHMMと組み合わせることにより、認識率の向上に成功した。また、遠距離相互作用の表現については、正規文法よりも高次のクラスの文法が必要であり、高次構造の予測のためには、連続音声認識と同様の構文解析手法が有用であることを示した。

 また、タンパク質立体構造を階層的にパラメータ化する手法Multi Scale Structure Description(MSSD)を開発した。MSSDは、部分構造の主鎖の構造を、炭素原子の3次元座標の線形展開を用いて表現するもので、部分構造の大きさ(アミノ酸残基の数)に関わらず、不変な形で定義される。MSSDにより、従来の2次構造に基づく大雑把な表現や、3次元座標による不必要に細かい表現を排し、タンパク質立体構造の局所構造の精密と記述と、大局的た構造のトポロジーを、階層的に表現することに成功した。MSSDは3次元の周波数分解のようと性質を持っており、元の立体構造がほぼ復元できる。MSSDの各長さレベルの構造は、対応するアミノ酸配列と相関があり、各長さレベルの構造は周辺の構造と相関をもつから、立体構造のパターンのルールが相関の形で観察される。そこで、タンパク質のアミノ酸配列からMSSDの階層的表現を予測することにより、タンパク質の立体構造を予測するシステムを作った。階層的構造の各クラスターに対する局所構造予測器の出力と、隣合った構造の幾何学的制約の全ての組み合わせを用いて、伝搬型ネットワークをつくって繰り返し計算を行なうことにより、局所構造予測器の予測を改善できることを示した。また、タンパク質の立体構造が本来持っている階層構造知るため、MSSDによる局所構造表現から、連続分布HMMを用いて局所構造分類を行ない、自動ラベリングも同時に行なうことに成功した。今後の立体構造予測に用いる構造モデルを構築するため、高次構造の分類に現在取り組んでいる。

審査要旨

 生物は進化の過程で優れた分子機構を利用する道を発見し,その上に遺伝情報系と神経情報系という二つの情報システムを築き上げることに成功した.このうち,遺伝系はこれまでに主として分子生物学により研究されてきた.遺伝的配列には生物の基本情報が確率的な変動を伴う進化の結果として蓄積されており,これを情報システムとして数理的手法により解明することが重要である.すなわち,DNA配列、RNA配列、タンパク質のアミノ酸配列などの遺伝的配列が生物についてどの様な情報を含み、生体中でどのような機能を発現するかを解明することは、生物の情報処理を理解する上での基本的な課題といえる.近年遺伝情報データベースが急速に拡大されつつあるが,データベース上の遺伝的配列の「意味」を理解し、生命現象の本質に迫るためには、数理情報工学のさまざまな手法を駆使すると共に、高速な計算機による大量の情報処理を実行しなければならない.本論文は、このための新しい数理的手法を確立することを目指して,隠れマルコフモデルによる遺伝的配列の解析と、文法的な規則を用いた階層的な構造記述による,タンパク質の立体構造予測の確率モデルを提唱し,これにより遺伝情報の意味の数理的解明に取り組んだ研究といえる.

 本論文は,まえがき,本文4章,参考文献および付録からなる.第1章は序論であり、本研究の目的と背景を分子生物学と数理情報工学の両面から論じている.

 第2章は隠れマルコフモデルの遺伝子情報処理への応用と題し,新しい確率モデルを遺伝子情報処理の分野へ導入したものである.遺伝子のDNA系列やタンパク質のアミノ酸配列にはある種の統計的規則性が観測されるため,これを確率的系列とみなして統計的情報論的解析を行なう試みは従来からあったが,単純な頻度解析やマルコフ的解析ではその本質を捉えきれなかった.本研究は,音声認識で成功を収めた隠れマルコフモデルを用いることを提唱し,これにより解析が比較的簡単で遠隔相互作用をも表現できる方法を開発したものである.はじめに隠れマルコフモデルの性質とその構造同定法を述べ,次にこれをタンパク質のアミノ酸配列の解析に応用し,そのパターンを特徴づけている。また、隠れマルコフモデルによるマルチプル・アラインメント解析の手法を提案し、そのBerger、Mansonの逐次法との関係を明らかにした。さらに、隠れマルコフモデルをDNAのシグナル配列のモデル化に応用し、RNAへの転写開始位置付近に特徴的な配列パターンを効果的に識別する道を拓いた.この際、隠れマルコフモデルのネットワーク形状を遺伝的アルゴリズムを用いて決定する手法を考案するなど,多様な手法を組み合わせている.

 第3章はタンパク質の立体構造予測を取り扱ったものである.遺伝情報の多くはタンパク質の機能を通じて発現するが、それはタンパク質の立体構造と密接に関係する.このため,アミノ酸系列からタンパク質の立体構造を予測解明しその機能を推測することが重要になる.立体構造を実験により決定することは非常に困難であるから、アミノ酸配列からその立体構造を予測する研究が必要とされる.本章では、隠れマルコフモデルを用いたタンパク質2次構造予測、文法的規則を用いたタンパク質立体構造予測、階層的構造記述による立体構造の表現・分類と予測という三方式を提唱している.これらは,情報をより大域的構造的に順次取り込むもので,タンパク質の構造予測に新しい確率的構造的な視点を導入したものといえる.具体的にはタンパク質の2次構造予測においては、連続する2個のアミノ酸の組を隠れマルコフモデルの出力記号として用いることでかなり正確に予測が出来ることを示した.また、これを文法的規則と組み合わせることにより、認識率の若干の向上に成功した.さらに、遠距離相互作用の表現には正規文法よりも高次のクラスの文法が必要であり、高次構造の予測には、連続音声認識と同様の構文解析手法が有用であることを示した。階層的構造記述では、部分構造の主鎖の構造を炭素原子の3次元座標の線形展開を用いて表現し、部分構造の大きさに関わらず不変な形で定義する.これにより、従来の2次構造に基づく大雑把な表現や、3次元座標による不必要に細かい表現を排し、タンパク質立体構造の局所構造の精密な記述と、大局的な構造のトポロジーを階層的に表現できることを示した.

 第4章は結論であり,本論文の成果を要約している.

 これを要するに、本論文は隠れマルコフモデルを中心とした確率モデルを用いることにより遺伝情報の解析とタンパク質の立体構造予測に対して新しい視点と方式を導入し,その有効性を具体的に示したもので、数理工学上貢献するところが大きい。よって本論文は博士(工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク