学位論文要旨



No 115808
著者(漢字) 内古閑,伸之
著者(英字)
著者(カナ) ウチコガ,ノブユキ
標題(和) 単細胞生物におけるタンパク質コード領域と非コード領域の塩基配列構造の類似性
標題(洋)
報告番号 115808
報告番号 甲15808
学位授与日 2001.03.29
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第293号
研究科 総合文化研究科
専攻
論文審査委員 主査: 東京大学 助教授 陶山,明
 東京大学 教授 川戸,佳
 東京大学 教授 黒田,玲子
 東京大学 助教授 池内,昌彦
 東京大学 助教授 渡辺,雄一郎
内容要旨 要旨を表示する

 本研究の目的はゲノム塩基配列に存在するk-タプル(連続するk塩基長配列)の使用頻度の偏りからゲノム塩基配列構造を明らかにすることである。塩基配列のk-タプル解析はコード領域、非コード領域ともになされている。コード領域には3-タプルであるコドンが存在し、コドンはひとつのアミノ酸に対して縮退している。同じアミノ酸をコードする複数のコドンを同義語コドンという。同義語コドンの使用頻度は一様ではなく、遺伝子やゲノムにより異なる偏りが存在している。非コード領域ではおもに2-タプル解析がなされており、それらの使用頻度も一様ではない。また、コード領域と非コード領域の2,3-タプルの使用頻度に相関があることが示唆されているが、そこで扱われた非コード領域のデータはコード領域を含んでおりコード領域と非コード領域の相関を正確に示した結果ではない。

 そこで、本研究では25種の単細胞生物ゲノム(古細菌6種、真正細菌18種、真核生物1種)をコード領域と非コード領域に分割し、それぞれの領域で統計的有意に多く存在するk-タプル(Significantly Preferred Tuple:SPT)を定義した。SPTは実際の出現頻度と、調べる領域と同じ塩基組成を持つランダム配列での出現頻度との差を計算しその差が標準偏差を単位にして、ある距離以上のタプルとして定義される。したがって、SPTは調べる領域の塩基組成の影響を差し引いて得られた高頻度に存在するk-タプルである。ゲノム内でSPTwが見られるコード領域の割合と非コード領域の割合をそれぞれFP(w)、FN(w)とする。そして、各ゲノムのすべてのSPTについてFP、FNの相関を見ると正の相関が見られた(例:図1a)。6-タプルではあまり高い相関が見られないが、5塩基長以下のタプルでは多くのゲノムで高い正の相関が見られる(図1b)。したがって、5-タプル以下についてコード領域と非コード領域のタプルの出現頻度に相関があることを明確に示すことができた。このことは5-タプル以下についてコード領域と非コード領域でk-タプル出現頻度の偏りに類似性があることを意味する。そして各ゲノムについて、コード領域と非コード領域に共通して高い割合(上位20)で見られるSPTを全ゲノムSPT(Whole Genome SPT: WGSPT)として定義した。5-タプル以下についてProkaryoteよりもEukaryoteの相関係数は小さく(図1b)、EukaryoteのWGSPTの数はProkayroteよりも少なかった(例:図1aの黒い点の数)。

 WGSPTをもちいて、ゲノム塩基配列の特徴を調べた。その結果、WGSPTが見られる領域がゲノム内に一様に分布していることと、各ゲノムのWGSPTは互いに相補的なものが多いことが示された。この結果から、ゲノム塩基配列構造は領域の重複や逆挿入により生成されたと考えられる。

 コード領域、非コード領域の各領域についてWGSPTが見られる要因について調査した。コード領域には同義語コドンの使用頻度の偏りが存在するため、WGSPTはコドンに影響されていると考えられる。実際、3塩基長WGSPTの多くはリーディングフレームに位置しており、WGSPTはコドンに関連していることがわかった。一方、非コード領域についてはゲノム内に多く存在する偽遺伝子、RNA遺伝子、繰り返し配列に注目し、非コード領域に見られるWGSPTはどの領域に影響されているかを調べた。その結果、RNA遺伝子や繰り返し配列ではあまり顕著な特徴は見られなかったが、偽遺伝子を含む非コード領域は偽遺伝子を含まない非コード領域に比べ高い割合でWGSPTが見られた。偽遺伝子はコード領域が変異などにより機能しなくなった領域で、同義語コドンの使用頻度の偏りが十分残っていると考えられる。コード領域と非コード領域の類似性はコード領域についてはコドン、非コード領域については偽遺伝子の配列の特徴による影響が強いと考えられる。

 WGSPTの進化的考察をするためゲノム間で比較を行なった。3塩基長WGSPTについて進化的距離が近いと考えられる同じ属のゲノム同士は高い割合で共通していたが、例外的に少数の進化的距離の遠い属(異なる属)同士でも共通性が見られた。4塩基長WGSPTでは同じ属のゲノム同士でのみ共通性が見られた。このことから、4塩基長のWGSPTは3塩基長のWGSPTよりもゲノムの進化を考えるのに適当な長さであると考えられる。個々のゲノムでWGSPTが見られるが、進化的距離に応じてWGSPTの共通性が異なるのは変異した領域がゲノム全体に重複して起こることが原因と考えられる。ゲノム内で、変異をもった領域がゲノム全体で一様に重複すれば、異なるがWGSPTがみられる。したがって、それぞれのゲノムではWGSPTが見られるが、ゲノム間では進化的距離に応じてWGSPTが異なると考えられる。本研究の結果から、ゲノム塩基配列構造は個々のゲノムについてだけでなく、進化的考察についても領域の重複により説明ができる。

図:コード領域と非コード領域のk-タプル出現頻度の相関関係

a:Apernix(Prokaryote),S.cerevisiae(Eukaryote)の例。黒い点はWGSPT。

b:各ゲノムの相間係数の分布

審査要旨 要旨を表示する

 本論文は1編、5章から成り、第1章では序論、第2章では解析方法と配列、第3章では結果、第4章では考察、第5章では結論が述べられている。

 第1章の序論では、本学位論文で行われた研究の背景と目的について詳しく述べられている。ゲノムDNAはタンパク質をコードしている領域とコードしていない領域に分けられる。それらの領域における塩基配列は決してランダムではなく、連続するK塩基長配列であるk-タプルの使用頻度には偏りが存在する。論文提出者は、最初に、k-タプル解析を利用した研究により明らかにされているタンパク質コード領域と非コード領域での塩基配列構造の特徴について概説している。そして、それらの研究の中で、特にタンパク質コード領域と非コード領域で2、3-タプルの使用頻度に相関があることを示唆したManiの報告(J.Theor. Biol.158,429-445,1992)に注目し、それが本論文の研究を行う動機のひとつになったと述べている。機能がまったく異なるコード領域と非コード領域の塩基配列構造に類似性があるとすれば、コード領域と非コード領域を含むゲノムDNAの進化について重要な知見を得ることができると考えられる。また、その知見はゲノムの塩基配列からタンパク質をコードしている領域を予測するというゲノムインフォマティクスにおける最も基本的な解析の精度を向上させるために利用できるかもしれない。Maniの解析には非コード領域のデータにコード領域が含まれている等の問題点があったため、論文提出者は塩基配列構造の類似性をk-タプルの使用頻度の偏りから明らかにする新たな方法を考案するとともに、最近になって決定された多数のゲノムDNAの全塩基配列を利用して、タンパク質コード領域と非コード領域の塩基配列構造の類似性を明らかにする研究を行った。

 第2章の解析方法と配列では、本論文の解析において中心的役割を果たしている高頻度タプル(SPT: significantly preferred tuple)と全ゲノム高頻度タプル(WGSPT: whole genome SPT)の定義、解析に使用したゲノムの塩基配列とコンピュータの環境などについて述べられている。SPTは各領域に対して定義されるタプルで、その領域と同じ塩基組成をもつランダム配列での出現頻度に対して実際の出現頻度が統計的に有意に多い長さがk塩基長のタプルである。一方、WGSPTは各ゲノムに対して定義されるタプルで、コード領域と非コード領域に共通して高い割合で見られる長さがk塩基長のSPTである。解析には25種の単細胞生物ゲノムの全塩基配列が使用されているが、それらは古細菌が6種、真正細菌が18種、真核生物が1種(16染色体)である。

 第3章では、第2章の方法に従って解析を行った結果について述べられている。最初に、各領域に対して定義されたSPTが領域内で一様に分布し、領域内の一部に局在している繰り返し配列などに起因するものではないことが示されている。次に、タンパク質コード領域と非コード領域におけるタプルの使用頻度の偏りを比較するために、各SPTが見られるコード領域の割合と非コード領域の割合との相関が調べられている。多くのゲノムで高い正の相関があることが5塩基長以下のSPTについて示され、コード領域と非コード領域でタプルの使用頻度の偏りが統計的に有意に類似していることが明らかにされている。

 見出された正の相関は、タンパク質コード領域と非コード領域の両方で統計的に有意に多用されているタプルであるWGSPTが存在することを意味している。論文提出者はこのWGSPTを利用して、コード領域と非コード領域の塩基配列構造の類似性について詳しい解析を行っている。そして、各ゲノムのWGSPTは互いに相補的塩基配列をもつものが多いこと、WGSPTが見られる領域がゲノム全体に一様に分布していることを示している。また、3塩基長WGSPTは、コード領域ではリーディングフレームに最も高い頻度で出現してコドンに関連していたが、非コード領域では仮想的に設けたフレームとまったく関連がないことを示した。偽遺伝子を含む非コード領域は偽遺伝子を含まない非コード領域に比べ高い割合でWGSPTをもち、WGSPTが偽遺伝子と深く関係していることも明らかにした。それに対して、RNA遺伝子や繰り返し配列を含むタンパク質非コード領域ではあまり顕著な特徴は見られなかったと述べている。さらに、ゲノム間でWGSPTの比較を行ない、進化的距離が近いと考えられる同じ属のゲノム同士はWGSPTを高い割合で共有していたが、進化的距離の遠い異なる属のゲノム同士ではWGSPTの共通性が見られないことを示した。この傾向は特に4塩基長以上のWGSPTで顕著であった。

 第4章では第3章で得られた結果について考察を行っている。論文提出者はまず得られた結果と他の研究で得られた結果との比較検討を行っている。Maniの研究により示唆されたタンパク質コード領域と非コード領域の塩基配列構造の類似性が明確に証明できたこと、KarlinやNakashimaらのタプル解析の結果からもこの塩基配列構造の類似性が読みとれることについて述べている。次に、コード領域と非コード領域でのタプルの使われ方が類似している原因について議論している。そして、第3章で述べられている結果は、ゲノムがその一部分が重複と逆挿入を繰り返して進化してきたことの証拠であると結論づけている。

 以上のように、本論文は25種類の単細胞生物ゲノムにおいて、タンパク質をコードしている領域とコードしていない領域で塩基配列の構造が統計的に有意に似ていることをはじめて明確に示した研究である。この結果は生物のゲノムDNAが重複と逆挿入を繰り返しながら進化してきたことを示す重要な証拠を与えるとともに、ゲノムの塩基配列からタンパク質をコードする領域を予測する方法に対して重要な知見を与えるものであると考えられる。

 なお、本論文は陶山明との共同研究であるが、論文提出者が主体となって研究全体を行ったもので、論文提出者の寄与が十分であると判断する。したがって、博士(学術)の学位を授与できると認める。

UTokyo Repositoryリンク