学位論文要旨



No 116254
著者(漢字) 相良,純一
著者(英字)
著者(カナ) サガラ,ジュンイチ
標題(和) 統計的手法を用いた遺伝子配列解析と系統分類および分子進化への応用に関する研究
標題(洋)
報告番号 116254
報告番号 甲16254
学位授与日 2001.03.29
学位種別 課程博士
学位種類 博士(農学)
学位記番号 博農第2284号
研究科 農学生命科学研究科
専攻 応用生命工学専攻
論文審査委員 主査: 東京大学 教授 清水,謙多郎
 東京大学 教授 太田,明徳
 東京大学 教授 正木,春彦
 東京大学 助教授 横田,明
 東京大学 助教授 堀内,裕之
内容要旨 要旨を表示する

1 はじめに

 本研究で用いられている主成分分析法(Principal Component Analysis, PCA)と多次元尺度構成法(Multidimensional Scaling analysis, MDS)は、多変量解析の一種として、よく用いられている手法である。PCAは、多くの情報をもつ個体間の相関関係を調べる手法であり、1対1の相関関係だけでなく、全体あるいは部分の統計的相関を包括的に抽出することができる。この手法を配列解析に用いることにより、通常の相同性解析と比較し、複数の配列全体の統計的相関を抽出することができるという利点もある。MDSは多次元の情報を低次元(二次元)平面上に射影する手法であり、この手法を配列解析に適用することにより、配列の数だけ次元をもつ相関情報を、低次元の相関として可視化することができる。

 本研究ではPCAとMDSを再帰的に適用するなど手法の改良を行うとともに、塩基のコード化を行って、遺伝子の配列解析への適用を試みた。

2 手法

 配列および配列中の塩基を数値的に取り扱うために、塩基をバイナリコードに変換し、遺伝子の塩基配列をこれらバイナリコードの列として表す。このバイナリコードの列として表された配列を各行とする行列がアライメント行列Fである。配列中の4種の塩基、アデニン(A)、シトシン(C)、グアニン(G)、チミン(T)は、それぞれ4ビットのバイナリコード1000、0100、0O10、0001に変換される。アライメント行列Fは、バイナリコードの列である塩基配列を縦に並べたベクトルであり、シーケンスプロファイルを形成する。

 次に、配列間の相関をハミング距離で表す相関行列0=FFTを計算する。0の固有値λpは、固有ベクトルを→Upとすると、C→Up=λp→Up(→Upは固有ベクトル)から求まり、これらλpと→uの値を用いて主成分負荷量を計算することができる。

 配列の各主成分負荷量xpkは、xpk=√λpUpkで求められ、これ吋の値を2つの主成分ベクトルで定義される二次元平面上に射影することで、解析するすべての配列を二次元平面上にプロットすることができる。また、塩基の各主成分負荷量Yp肺は、Yp=FT→Upで求められ、これら肺の値を、2つの主成分ベクトルで定義される二次元平面上に射影することにより、解析する配列に含まれるすべての塩基を二次元平面上にプロットすることができる。

 上で求めた配列と塩基のそれぞれの主成分負荷量を2次、3次と次々に求めていき、それらを二次元平面に射影することにより、配列と塩基の相関関係を同一の空間上で表すことができる。また、配列と塩基の相関関係をそれぞれがプロットされている方向で比較することができる。

3 大腸菌tRNAのidentityの予測

 大腸菌のtRNA遺伝子配列を、Class IとClass IIの2つのグループに分類し、それぞれのグループに本手法を再帰的に適用した。

 本手法により検出された特徴的な部位のうち、Class Iではおよそ40%の部位が、Class IIでは20%の部位が従来の研究により明らかにされているidentityと一致した。今回、新たに検出された特徴的な部位はTあるいはDドメインといったtRNAのL字型構造中のヒンジの部位に多くみられた。このことにより、tRNAのidentityが同属のアミノアシルシンセターゼとの結合に関与しているだけではなく、tRNAの微細な立体構造の違いの決定やtRNAのダイナミクスにも関与していることが示唆される。

4 大腸菌とメタン菌、酵母のtRNA遺伝子配列の解析

 大腸菌、メタン菌、酵母のtRNA遺伝子配列に本手法を適用し、3つの超生物界におけるtRNA遺伝子配列の相関関係を解析した。解析の結果、大腸菌とメタン菌、酵母の細胞質のtRNA遺伝子配列間の相関が高く、酵母のミトコンドリアのtRNA遺伝子配列の相関が、それら3つの配列と相関が低いことがわかった。このことから、ミトコンドリアのtRNA遺伝子が、他の3つのtRNA遺伝子と早い時期に分岐したか別の祖先分子由来であると考えられる。

 本研究により抽出された特徴的塩基は、生物種により多少の差はあるもののtRNAの二次構造における各ドメインのステム部位(特にDドメイン)に多く存在し、その多くはtRNAのL字型構造を形成するために重要な高次水素結合を行う塩基であった。また立体構造の上でも、これらの特徴的塩基はtRNAのヒンジ部位の内側に集中し、しかも空間的に非常に狭い範囲に存在しており、このような部位に特徴的塩基が多く存在するということは、立体構造の微細な違いを進化の過程において維持していくことが重要であることを示している。

5 ミトコンドリアtRNAの分子進化に関する研究

 ミトコンドリアtRNA遺伝子配列に本手法を適用し、遺伝子配列の階層的な解析と特徴的塩基の抽出を行った。

 データベースに登録されている全ての生物種のミトコンドリアtRNAの遺伝子配列を用いた解析では、それぞれのtRNAの遺伝子配列がコードしているアミノ酸ごとにまとまって二次元平面上にプロットされ、それぞれのアミノ酸の性質によってtRNA遺伝子配列の配列パターンが似ていることが示された。また、単細胞・菌類の配列は原点付近に、動物の配列は原点から離れた位置に、植物の配列が両者の中間の位置に多く存在することから、tRNA遺伝子配列が高等生物になるにしたがって他の生物種とは異なる特徴的な塩基を獲得していったと考えられ、これらの特徴的塩基がコードしているアミノ酸の性質の、また、生物種の分岐となっていると考えられる。

 生物種ごとのtRNA遺伝子配列の解析では、ミトコンドリアtRNA遺伝子配列が、コードしているアミノ酸ごとにまとまっていることが示された。二次元平面上にプロットされた配列は動物、植物において高等な生物種になるにしたがって原点から離れたところに位置しており、このことは、進化にしたがって配列に変異が蓄積され、種間の遺伝子配列の違いが大きくなることを表している。また、動物、植物、単細胞・菌類ごとの解析結果を比較すると、(1)射影された種間の配列の分離度は、植物や動物よりも単細胞・菌類のほうが小さい、(2)単細胞・菌類のtRNAの配列パターンの相関が高く、動物や植物のtRNAの配列パターンの相関が低いことがわかった。このことから、単細胞から植物、節足動物、脊椎動物の進化の過程において、tRNA遺伝子配列が変異によって特徴的な遺伝子配列を徐々に獲得していったと考えられ、tRNA遺伝子配列の祖先分子が単一あるいは数種であったことが示唆される。また、初期遺伝暗号におけるコドンの20種類のアミノ酸の翻訳が最小あるいは最小に近い数のtRNA種で行われていたというtRNAの起源説とも合致している。

 本研究により抽出された特徴的塩基はtRNAの二次構造におけるTあるいはDドメインに多く存在した。これらの部位は、tRNAの立体構造におけるL字型構造のヒンジの部分にあたり、tRNAの立体構造やダイナミクスを決めている。そのような部位に特徴的塩基が多く存在するということは、ミトコンドリアtRNAの分子進化において、L字型構造の維持や変化が、種形成や種分化の大きな要因になっていると考えられる。

6 多変量解析を用いた未知配列の系統分類に関する研究

 高GC含量グラム陽性菌のgyrB配列に本手法を適用し、属の同定されていない配列の系統分類を行った。

 本手法より得られた結果が、最尤法にもとづく分類とほぼ一致し、系統分類手法として本手法が有用であることが示された。また、複数の主成分負荷量を比較し、弱い配列パターンを抽出することにより、複数の分類の候補を挙げ、これにより分類の再検討が必要である配列や、新しい属と考えられる配列の検出に成功した。

 本手法は最尤法と比べて計算のアルゴリズムが単純であるため計算コストも非常に小さく、簡便な系統分類予測の方法として適している。

7 まとめ

 多変量解析の一種であるPCAおよびMDSを再帰的に適用する方法を考案し、大腸菌tRNAのidentityの予測、大腸菌とメタン菌、酵母のtRNA遺伝子配列の解析、ミトコンドリアtRNAの分子進化に関する研究、多変量解析を用いた未知配列の系統分類に関する研究に適用して、その有用性を示した。

 今後は、本手法と隠れマルコフモデル(Hidden Markov Model)やニューラルネットワーク、相互情報量(amount of Mutual Information)のような情報科学的手法とを組み合わせることで、より広範で柔軟な配列解析を行い、さらなる特徴的塩基の抽出や有意な塩基の絞り込みを行えることが期待できる。

参考文献

[1]Sagara, J.-1.,Shimizu,S.,Kawabata,T.,Nakamura,S.,Ikeguchi,M.and Shimizu,K., The use of sequence comparison to detect 'identities' in tRNA genes, Nucleic Acids Res., 26:1974-1979,1998.

図1: 塩基配列空間:x1が第1主成分、x2が第2主成分、x3が第3主成分の方向を示す。x2とx3で形成される二次元平面に配列や塩基が射影される。(I)配列をこの空間上に射影した図。各点は配列に対応している。(II)配列中の塩基をこの空間上に射影した図。各点はアライメントされた配列中の1つの塩基に対応している。

審査要旨 要旨を表示する

 今日のゲノム解析の進展により、大量の遺伝情報がもたらされている。それらを体系化し、生命システムの情報構築原理を理解することは、重要な課題であり、そのために、生命科学への情報科学的手法の導入が必要不可欠となっている。

 本論文では、統計的手法(主成分分析法・多次元尺度構成法)を用いた遺伝子配列の配列パターンによるグループ分けと、それぞれのグループに特徴的な塩基の抽出を行う手法を提案がなされている。本手法は主成分分析法を配列解析に用いることにより、通常の相同性解析と比較し、複数の配列全体の統計的相関を抽出することができ、また、多次元尺度構成法を用いることにより、配列の数だけ次元をもつ相関情報を、低次元の相関として可視化することができるという利点がある。そして、これらの手法を用いて、大腸菌tRNAのアイデンティティの予測、大腸菌とメタン菌、酵母のtRNA遺伝子配列の解析、ミトコンドリアtRNAの分子進化に関する研究、多変量解析を用いた未知配列の分類に関する研究を行い、手法の有用性を示すとともに、tRNAとアミノアシルtRNA合成酵素の分子認識、ミトコンドリアtRNAの分子進化についての考察を行っている。

 第1章は序論であり、今日のゲノム解析の進展によりもたらされる大量の遺伝情報に対する情報科学的手法によるアプローチについて説明し、本研究を行うに至った背景を述べている。

 第2章は本研究で開発した遺伝子配列解析手法について述べている。開発した手法は、多変量解析を再帰的に遺伝子配列に適用し階層的な配列のグループ化とグループに特徴的に保存されている塩基(特徴的塩基)の抽出を可能にしている。

 第3章は大腸菌tRNAのアイデンティティの予測について述べている。開発した手法を大腸菌のtRNA遺伝子配列に通用し、配列のグループ分けと特徴的塩基の抽出を行った。抽出された特徴的塩基と、tRNAと同属のアミノアシルtRNA合成酵素(ARS)との分子認識に関与するとされるアイデンティティと呼ばれる塩基との比較を行っている。抽出された特徴的塩基は、tRNAの立体構造中、ヒンジ部位に多く位置していた。この部位はtRNAの立体構造や動特性の違いを決めていると考えられており、tRNAとARSの分子認識に、これらの違いが関与している可能性を示唆している。

 第4章は大腸菌とメタン菌、酵母のtRNA遺伝子配列の解析について述べている。開発した手法を大腸菌とメタン菌、酵母(細胞質,ミトコンドリア)のtRNA遺伝子配列に適用し、3つの超生物界におけるtRNAの相関関係を解析を調べ、それぞれの生物、生物間に特徴的な塩基の抽出を行っている。ミトコンドリアの配列の持つ配列パターンが他の生物の持つ配列パターンとは大きく異なり、ミトコンドリアが進化上早い時期に分岐したことが示された。また抽出した塩基と立体構造を比較したところ、特徴的はtRNAのL字型構造を保持するために重要な高次水素結合を形成する部位に位置していた。このことより、立体構造の保持や変化が、種形成や種分化に関与している可能性を示唆している。

 第5章はミトコンドリアtRNAの分子進化に関する研究について述べている。開発した手法をミトコンドリアtRNA遺伝子配列に適用し、ミトコンドリアtRNA遺伝子配列の相関関係について階層的に解析を行っており、全生物種、生物種ごと、コードしているアミノ酸ごとと、階層的な配列のグループ分けと特徴的塩基の抽出に成功している。抽出された特徴的塩基は、立体構造中ヒンジ部位に位置し、立体構造の微細な違いや動特性の違いが、ミトコンドリアのtRNAの分子進化に関与している可能性を示唆している。

 第6章は多変量解析を用いた未知配列の系統分類に関する研究について述べている。開発した手法を高GC含量グラム陽性菌のgyrB遺伝子配列に適用し、属の同定されていないgyrB遺伝子配列の分類を行っている。本手法によるgyrB遺伝子配列の分類結果は、従来使われている最尤法で求められた分類結果と一致しており、また最尤法の約1万分の1の計算コストで結果を得ることができた。これにより、本手法の系続分類手法としての有用性が示され、本手法が簡便な系統分類手法として用いることができると期待される。

 以上、本研究は遺伝子配列解析手法の開発およびその応用について、生命科学に情報科学的手法を導入し、生命システムの情報構築原理の理解を助ける研究である。この成果は、学術上、また応用上、貢献するところが少なくない。よって審査委員一同は、本論文が博士(農学)の学位論文として価値あるものと認めた。

UTokyo Repositoryリンク