はじめに 生命現象の発現機構の解明を目的としたゲノムプロジェクトは近年急速な進展をとげ、日々大量のDNA配列が産出されている。しかし、生命現象の発現機構はDNA配列を決定しただけでは理解することができない。そこで、配列データに隠された生物学的な情報(例えば、タンパク質をコードしている領域やタンパク質の働き)を知ることが発現機構を理解するはじめのステップになる(遺伝子構造予測・機能予測)。遺伝子の構造や機能の予測では、構造や機能を示唆する配列データをどのようにして表現するかという問題が最も基礎的で重要な研究課題となっている。 遺伝子の構造や機能を示唆する配列情報は、モチーフパターンとして観察されることが多い(図1)。モチーフパターンとは、モチーフとよばれる部分配列が形成するパターンのことである。モチーフはタンパク質がDNAに結合するために必要な配列断片で、この結合が遺伝子の構造や機能に深く関連している。モチーフパターンの大きな特徴は多様性である。具体的には、モチーフの塩基配列、モチーフの相対的な出現位置、モチーフの組合せの多様性が知られている。 図1:アクセプタ部位の近傍配列に観察されるモチーフパターンの多様性の例:この領域には3種類のモチーフ(枝分かれ点、ポリピリミジン領域、アクセプタ部位)が存在する。遺伝子ASMにおける枝分かれ点の塩基配列はCTGATであるのに対してapoC-IIではCTGACとなっている(モチーフの塩基配列の多様性)。ASMにおける枝分かれ点とアクセプタ部位の距離は25塩基であるのに対してapoC-IIでは14塩基となっている(モチーフの相対的な出現位置の多様性)。ASMとapoC-IIでは3種類のモチーフが観察されるのに対してCYP11B2では2種類のモチーフしか観察されない(モチーフの組合せの多様性)。 多様性に富むモチーフパターンの表現手法として、確率論的モデルは非常に有効である。そこで、我々は、(1)どのような確率論的モデルが配列データの表現手法として有効か、(2)配列データを表現する確率論的モデルをどのようにして構築するか、(3)以上の考察によって遺伝子構造予測・機能予測に関するどのような問題が解決されたかを考察した。 1.どのような確率論的モデルが配列データの表現手法として有効か 我々は、代表的な配列データの確率論的表現モデルである重み行列(positional weight matrix:PWM)と隠れマルコフモデル(hidden Markov model:HMM)を取り上げ、各々のモデルを用いて配列データの表現を試みた。その結果、HMMは広い領域に存在するモチーフパターンの記述に優れていることが明らかになった。PWMは、配列中の各位置における塩基の重要性を数値化して配列データを表現する。一方、ネットワークで記述されるHMMは、トポロジーとネットワークに付与されたパラメータによって配列データを表現する。PWMは配列中の位置に依存した表現モデルであるため、モチーフの塩基配列の多様性といった局所的なデータの記述には優れているが、モチーフの相対的な出現位置や組合せの多様性といった大域的なデータの記述には適していない。一方、ネットワーク構造をもつHMMは、3種類のモチーフパターンの多様性について高い記述力を示した。特に、データの特徴を吟味して設計した原核生物のコード領域のHMMは、従来法をはるかに上回る精度でコード領域を予測することが明らかになった。 2.配列データを表現する確率論的モデルをどのようにして構築するか 我々は、配列データからモチーフパターンのHMM表現を生成する手法を開発した。ここでは、統計的な解析手法を応用して配列データに含まれる各種モチーフに対応したHMM表現を生成し、それらを組み合わせたモチーフパターンのHMM表現を遺伝的プログラミング(genetic programming:GP)を応用して生成する。 モチーフのHMM表現を生成する手法は以下の通りである。(1)配列データにおいて有意に出現する固定長の部分配列群を統計解析によって選びだす。(2)これらを配列間の類似性によってモチーフのグループに分類する。(3)アライメントと統計検定を各グループごとに行ない、モチーフの長さとプロファイルを決定する。(4)これらの決定に従って各グループごとにHMMを構築する。(5)局所検索の技法を用いて各HMMを構築した部分配列群を再定義する。(3)〜(5)は、生成されるHMMが収束するまで繰り返される。 モチーフパターンのHMM表現の生成では、HMMを記述する確率付きの木表現を定義し、GPを用いて木の構造がモチーフパターンを表現するように最適化する。木の非終端頂点には連結、確率付き選択、確率付き閉包などを割りあて、終端頂点には前述の手法で生成した各種モチーフのHMMや任意の一文字に対応するHMMを割りあてる。 計算機実験の結果、本手法は大量の配列データから効率的にモチーフパターンのHMM表現を生成することが確かめられた。さらに、生成されたモチーフパターンのHMM表現は、モチーフパターンに関する示唆に富んだ知見を提供するばかりでなく、未知の配列データから高い精度でモチーフパターンを検出することが明らかになった。 3.遺伝子構造予測・機能予測に関するどのような問題が解決されたか 我々は、HMMとその生成手法を応用して、遺伝子構造予測・機能予測における重要な研究課題(翻訳開始点の同定問題とコード領域の配列類似性に依存しない機能予測問題)にアプローチを試みた。 原核生物の遺伝子構造予測では、翻訳開始点を正確に同定することが重要な研究課題となっている。そこで、我々は、翻訳開始点近傍におけるモチーフパターンのHMM表現を生成し、そのHMMを用いて翻訳開始点の同定を試みた。計算機実験の結果、このHMMは高い精度で翻訳開始点を同定することが明らかになった。また、このHMMを考察することによって、この領域のモチーフパターンに関する次のような新しい知見がえられた。(1)翻訳開始点の上流にはピリミジンに富んだ領域が存在する。(2)第2アミノ酸の第2塩基がCに偏る遺伝子群が存在し、それらでは開始コドンのメチオニンがプロセスを受けている。 従来、遺伝子機能予測はコード領域の配列に類似する遺伝子をデータベース中に検索することによって行われてきた。しかし、データベースに類似遺伝子が存在しないコード領域が数多く存在し、これらのコード領域に関する機能予測が重要な研究課題となっている。我々は、遺伝子の機能とプロモータ領域のモチーフパターンの相関関係に着目し、プロモータ領域のモチーフパターンに基づいた原核生物の遺伝子機能予測手法を開発した。ここでは、遺伝子の機能クラスごとにプロモータ領域のHMM表現を生成した。計算機実験の結果、これらのHMMが高い精度で遺伝子の機能を予測することが明らかになり、コード領域の配列類似性に依存しない遺伝子の機能予測手法が示された。 おわりに 本研究では、HMMがDNA配列データの表現モデルとして有効であることを示し、配列データからHMM表現を生成する実用的な手法を開発した。ここで考察したHMMは一般的なトポロジーをもち、従来から広く用いられてきたleft-to-right型のHMMと比較すると、データの表現力が飛躍的に改善されている。本研究では、一般的なトポロジーによるデータ表現とその生成手法が、ゲノムプロジェクトが抱える問題、遺伝子構造予測・機能予測問題に有効であることを明らかにした。 |