学位論文要旨



No 213900
著者(漢字) 矢田,哲士
著者(英字)
著者(カナ) ヤダ,テツシ
標題(和) DNA配列データの確率論的表現モデル : 構築アルゴリズムとその遺伝子構造予測・機能予測への応用
標題(洋) Stochastic Models Representing DNA Sequence Data : Construction Algorithms and Their Applications to Prediction of Gene Structure and Function
報告番号 213900
報告番号 乙13900
学位授与日 1998.06.22
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第13900号
研究科
専攻
論文審査委員 主査: 東京大学 教授 高木,利久
 東京大学 教授 萩谷,昌己
 東京大学 教授 宮野,悟
 東京大学 助教授 今井,浩
 大阪大学 助教授 中井,謙太
内容要旨 はじめに

 生命現象の発現機構の解明を目的としたゲノムプロジェクトは近年急速な進展をとげ、日々大量のDNA配列が産出されている。しかし、生命現象の発現機構はDNA配列を決定しただけでは理解することができない。そこで、配列データに隠された生物学的な情報(例えば、タンパク質をコードしている領域やタンパク質の働き)を知ることが発現機構を理解するはじめのステップになる(遺伝子構造予測・機能予測)。遺伝子の構造や機能の予測では、構造や機能を示唆する配列データをどのようにして表現するかという問題が最も基礎的で重要な研究課題となっている。

 遺伝子の構造や機能を示唆する配列情報は、モチーフパターンとして観察されることが多い(図1)。モチーフパターンとは、モチーフとよばれる部分配列が形成するパターンのことである。モチーフはタンパク質がDNAに結合するために必要な配列断片で、この結合が遺伝子の構造や機能に深く関連している。モチーフパターンの大きな特徴は多様性である。具体的には、モチーフの塩基配列、モチーフの相対的な出現位置、モチーフの組合せの多様性が知られている。

図1:アクセプタ部位の近傍配列に観察されるモチーフパターンの多様性の例:この領域には3種類のモチーフ(枝分かれ点、ポリピリミジン領域、アクセプタ部位)が存在する。遺伝子ASMにおける枝分かれ点の塩基配列はCTGATであるのに対してapoC-IIではCTGACとなっている(モチーフの塩基配列の多様性)。ASMにおける枝分かれ点とアクセプタ部位の距離は25塩基であるのに対してapoC-IIでは14塩基となっている(モチーフの相対的な出現位置の多様性)。ASMとapoC-IIでは3種類のモチーフが観察されるのに対してCYP11B2では2種類のモチーフしか観察されない(モチーフの組合せの多様性)。

 多様性に富むモチーフパターンの表現手法として、確率論的モデルは非常に有効である。そこで、我々は、(1)どのような確率論的モデルが配列データの表現手法として有効か、(2)配列データを表現する確率論的モデルをどのようにして構築するか、(3)以上の考察によって遺伝子構造予測・機能予測に関するどのような問題が解決されたかを考察した。

1.どのような確率論的モデルが配列データの表現手法として有効か

 我々は、代表的な配列データの確率論的表現モデルである重み行列(positional weight matrix:PWM)と隠れマルコフモデル(hidden Markov model:HMM)を取り上げ、各々のモデルを用いて配列データの表現を試みた。その結果、HMMは広い領域に存在するモチーフパターンの記述に優れていることが明らかになった。PWMは、配列中の各位置における塩基の重要性を数値化して配列データを表現する。一方、ネットワークで記述されるHMMは、トポロジーとネットワークに付与されたパラメータによって配列データを表現する。PWMは配列中の位置に依存した表現モデルであるため、モチーフの塩基配列の多様性といった局所的なデータの記述には優れているが、モチーフの相対的な出現位置や組合せの多様性といった大域的なデータの記述には適していない。一方、ネットワーク構造をもつHMMは、3種類のモチーフパターンの多様性について高い記述力を示した。特に、データの特徴を吟味して設計した原核生物のコード領域のHMMは、従来法をはるかに上回る精度でコード領域を予測することが明らかになった。

2.配列データを表現する確率論的モデルをどのようにして構築するか

 我々は、配列データからモチーフパターンのHMM表現を生成する手法を開発した。ここでは、統計的な解析手法を応用して配列データに含まれる各種モチーフに対応したHMM表現を生成し、それらを組み合わせたモチーフパターンのHMM表現を遺伝的プログラミング(genetic programming:GP)を応用して生成する。

 モチーフのHMM表現を生成する手法は以下の通りである。(1)配列データにおいて有意に出現する固定長の部分配列群を統計解析によって選びだす。(2)これらを配列間の類似性によってモチーフのグループに分類する。(3)アライメントと統計検定を各グループごとに行ない、モチーフの長さとプロファイルを決定する。(4)これらの決定に従って各グループごとにHMMを構築する。(5)局所検索の技法を用いて各HMMを構築した部分配列群を再定義する。(3)〜(5)は、生成されるHMMが収束するまで繰り返される。

 モチーフパターンのHMM表現の生成では、HMMを記述する確率付きの木表現を定義し、GPを用いて木の構造がモチーフパターンを表現するように最適化する。木の非終端頂点には連結、確率付き選択、確率付き閉包などを割りあて、終端頂点には前述の手法で生成した各種モチーフのHMMや任意の一文字に対応するHMMを割りあてる。

 計算機実験の結果、本手法は大量の配列データから効率的にモチーフパターンのHMM表現を生成することが確かめられた。さらに、生成されたモチーフパターンのHMM表現は、モチーフパターンに関する示唆に富んだ知見を提供するばかりでなく、未知の配列データから高い精度でモチーフパターンを検出することが明らかになった。

3.遺伝子構造予測・機能予測に関するどのような問題が解決されたか

 我々は、HMMとその生成手法を応用して、遺伝子構造予測・機能予測における重要な研究課題(翻訳開始点の同定問題とコード領域の配列類似性に依存しない機能予測問題)にアプローチを試みた。

 原核生物の遺伝子構造予測では、翻訳開始点を正確に同定することが重要な研究課題となっている。そこで、我々は、翻訳開始点近傍におけるモチーフパターンのHMM表現を生成し、そのHMMを用いて翻訳開始点の同定を試みた。計算機実験の結果、このHMMは高い精度で翻訳開始点を同定することが明らかになった。また、このHMMを考察することによって、この領域のモチーフパターンに関する次のような新しい知見がえられた。(1)翻訳開始点の上流にはピリミジンに富んだ領域が存在する。(2)第2アミノ酸の第2塩基がCに偏る遺伝子群が存在し、それらでは開始コドンのメチオニンがプロセスを受けている。

 従来、遺伝子機能予測はコード領域の配列に類似する遺伝子をデータベース中に検索することによって行われてきた。しかし、データベースに類似遺伝子が存在しないコード領域が数多く存在し、これらのコード領域に関する機能予測が重要な研究課題となっている。我々は、遺伝子の機能とプロモータ領域のモチーフパターンの相関関係に着目し、プロモータ領域のモチーフパターンに基づいた原核生物の遺伝子機能予測手法を開発した。ここでは、遺伝子の機能クラスごとにプロモータ領域のHMM表現を生成した。計算機実験の結果、これらのHMMが高い精度で遺伝子の機能を予測することが明らかになり、コード領域の配列類似性に依存しない遺伝子の機能予測手法が示された。

おわりに

 本研究では、HMMがDNA配列データの表現モデルとして有効であることを示し、配列データからHMM表現を生成する実用的な手法を開発した。ここで考察したHMMは一般的なトポロジーをもち、従来から広く用いられてきたleft-to-right型のHMMと比較すると、データの表現力が飛躍的に改善されている。本研究では、一般的なトポロジーによるデータ表現とその生成手法が、ゲノムプロジェクトが抱える問題、遺伝子構造予測・機能予測問題に有効であることを明らかにした。

審査要旨

 本論文は5章からなる。第1章では研究の背景と目的が述べられている。ここでは、ヒトゲノム計画の進行に伴って大きな情報科学的課題として浮上してきた遺伝子構造・遺伝子機能予測問題が取り上げられ、これらの問題に対するアプローチとして、DNA配列データの構造を確率論的にモデル化するアプローチの有効性が論じられている。第2章ではDNA配列データの確率論的な表現モデルとして重み行列と隠れマルコフモデルの二つが取り上げられ比較されている。これらのモデルを遺伝子構造の予測問題に適用することによって、DNA配列データに関する隠れマルコフモデルの高い表現力が検証されている。第3章では隠れマルコフモデルの構築アルゴリズムが述べられている。ここでは、配列データの生物学的な構造を考慮した構築アルゴリズムとして、まず各モチーフの隠れマルコフ表現を統計的な解析手法によって構築したのちに、遺伝的プログラミングを応用してこれらを組み合わせた隠れマルコフ表現を構築する手法が提案されている。さらに、この手法の有効性が計算機実験によって検証されている。第4章では遺伝子構造・遺伝子機能予測問題における隠れマルコフモデルとその構築アルゴリズムの応用とに関する考察が述べられている。遺伝子構造予測問題では翻訳開始点近傍の配列データを表現する隠れマルコフモデルが構築され、データに潜む未知の特徴が明らかにされた。遺伝子機能予測問題ではプロモータ領域の配列データを表現する隠れマルコフモデルが構築され、この領域のシグマ因子依存性に着目した遺伝子機能予測手法が提案された。第5章では本研究の結論および隠れマルコフモデルによるDNA配列データの表現の限界と今後の研究展開とが述べられている。

 本論文に述べられた研究成果は、情報科学ならびに分子生物学の進展に大きく寄与するものである。情報科学的な観点では、本研究は隠れマルコフモデルによるデータの表現手法とその関連技術に大きな進展をもたらした。隠れマルコフモデルはこれまでおもに音声データの表現モデルとして用いられていたが、音声データの特性から、適用されるネットワークはleft-to-right型であった。そのため、従来、隠れマルコフモデルをDNA配列データの表現モデルに応用する際にも、1次元文字列とみなすことができるDNA配列データは音声データと同じ特性を示すと考えられ、同じ型のネットワークが広く用いられてきた。しかし、left-to-right型のネットワークはDNA配列データに潜在するデータの特徴を十分に活用したものではなかった。本研究では、DNA配列データの表現における一般的なネットワークの重要性に着目し、隠れマルコフモデルのデータ表現力を十分に活かしたモデル化を行ない、その有効性を実証している。さらに、実用的な構築アルゴリズムを開発し、その有効性も確認している。これらの研究成果は、隠れマルコフモデルによるデータ表現の新しい可能性を示すとともに、その限界をも明らかにした点で情報科学的に十分価値のあるものである。さらに、分子生物学的な観点においても、本研究は遺伝子構造と遺伝子機能の予測技術に大幅な進展をもたらした。前者の成果としては、隠れマルコフモデルを応用した原核生物の遺伝子構造予測システムを開発したことが挙げられる。これまでにも隠れマルコフモデルを応用した予測システムは開発されていたが、本研究では配列データのモデリングや予測アルゴリズムの工夫によって、従来のものより予測精度の高いシステムを開発している。また、このシステムによって、従来予測が難しかった短い長さのコード領域の検出精度が飛躍的に改良された。一方、後者の成果としては、プロモータ領域の配列データに着目した遺伝子機能の予測手法が提案され、その妥当性が検証されたことが挙げられる。これまでの機能予測手法では、コード領域における配列データのみに着目していた。しかし、類似した配列データがデータベース中に存在しない場合、この領域のデータからは機能に関する情報が抽出できないことが多かった。ここで提案された手法は、新しい視点に立った機能予測手法であり、予測対象となるデータの範囲を大きく拡張した点で優れている。

 なお、本論文の第2章は大久保公策氏、石川幹人氏、広澤誠氏、十時泰氏との、第3章は石川幹人氏、中井謙太氏、浅井潔氏、田中秀俊氏、十時泰氏との、第4章は中井謙太氏、広澤誠氏、佐塚隆志氏、十時泰氏、石井崇洋氏との共同研究であるが、論文提出者が主体となって分析及び検証を行なったもので、論文提出者の寄与が十分であると判断する。

 したがって、博士(理学)を授与できると認める。

UTokyo Repositoryリンク