学位論文要旨



No 217499
著者(漢字) 若松,愛
著者(英字)
著者(カナ) ワカマツ,アイ
標題(和) ヒトmRNAのスプライシングによる多様性の解析とその遺伝子機能に及ぼす影響に関する研究
標題(洋)
報告番号 217499
報告番号 乙17499
学位授与日 2011.04.13
学位種別 論文博士
学位種類 博士(薬学)
学位記番号 第17499号
研究科
専攻
論文審査委員 主査: 東京大学 教授 堅田,利明
 東京大学 教授 関水,和久
 東京大学 教授 三浦,正幸
 東京大学 特任教授 磯貝,隆夫
 東京大学 准教授 富田,泰輔
 東京大学 教授 菅野,純夫
内容要旨 要旨を表示する

[背景]

ヒトゲノム配列情報より、ヒト遺伝子が2~2.5万しかないことがわかってきた。Alternative splicing(AS)という機構は、1つの遺伝子から異なる複数種のmRNAを産生させるという重要な役割を果たすが、疾患の起因となるようなmRNAがASによって産み出される場合があることもわかってきた。さらに、ガンなどの疾患に関与しているといわれる環境要因によるエピジェネティックな遺伝子発現制御は、ASといったRNAの発現調節にも及んでいると考えられている。これらのことから、ヒトmRNAのASによる多様性の解析を行ない、その遺伝子機能に及ぼす影響を検討することは、遺伝子のもつ未知なる機能の解明や遺伝子発現制御機構の解明につながると考えた。

第1章 ヒト全長cDNAの構造解析

mRNAの多様性の解析には、ASによって産み出されるprotein-coding transcriptの同定が必要であると考えた。しかし、多くの遺伝子は、複数のエクソンから構成されているため、それをゲノム配列から予測するのは困難であった。そこで、実際に生体内で産生されるmRNAに由来する全長cDNAを網羅的に取得して構造解析を行なうことにした。

完全長cDNAライブラリー作製法の一つであるオリゴキャップ法の反応条件を最適化し、mRNA約150ngからでも、5'末端の完全長率が92%のヒトcDNAライブラリー作製が可能という微量化と高効率化に成功した。次いで、約100種類のヒト組織・ヒト細胞から完全長cDNAライブラリーを作製し、そこから取得した146万の全長cDNA(FLJ cDNA)の5'-ESTの配列解析(平均長 約500bp)を行なった。それより、約3.5万個を選別し、全長を配列解析後、Coding sequence(CDS)と機能の予測を行った。その結果とリソース等をもとに、様々な実験手法に応用できるGateway cloning systemを導入し、33,275個のGateway エントリークローンを作製した。13,364個については、小麦胚芽を用いた無細胞系のタンパク合成技術によってタンパク合成し、SDS-PAGEで解析した。さらに、他の機関の公共データベースの配列と合わせてヒトゲノム配列へのマッピングを行った。これらの一連の解析結果を搭載したHuman Gene and Protein Database (HGPD, http://www.HGPD.jp)を構築した。

改良オリゴキャップ法による高効率化、微量化の成功は、細胞や組織を細分化しての解析を可能にすることから、より限定した条件下での遺伝子機能の解明につながると考えられる。取得した146万のFLJ cDNAは、10万にも及ぶと言われるprotein-coding transcriptの多くをカバーしていることから、mRNAの多様性の解析に大きく貢献すると予測される。取得した5'-ESTは、全長率の高い方法で作製され、平均長が500bpあることから、転写開始点(TSS)を含む領域の情報を得ることが可能であり、転写調節の解析に特に有用であると考えられる。

第2章 ヒトmRNAの多様性により産生される転写産物の探索・解析

遺伝子の機能解析には、ASによって産み出されるmRNAの中でも特にこれまで同定されていないCDSをもつprotein-coding transcriptの探索が重要であると考えた。そこで、FLJ cDNAの5'-ESTを利用した探索を行い、選別した約2万の全長cDNAの配列解析から、既知の全長cDNAと異なるCDSをもつprotein-coding transcriptを11,769個同定することに成功した。

mRNAの多様性解析には、その標的となる遺伝子を特定することが重要であると考え、ヒトゲノムではなく、ヒトcDNAによる遺伝子数の予測を行なった。FLJ cDNAより全長配列解析を行なった5.5万の全長配列、146万 cDNAのEST配列、公共データベースより集めた他の機関による配列(ヒト全長配列、RefSeq配列、Ensembl配列、EST配列)とヒトゲノム配列との比較を行なった。そこから、染色体領域ごとにマニュアルでprotein-coding transcriptが発現している領域であるかどうかの評価を行ない、遺伝子数を23,241個と予測した。また、FLJ Human cDNA Database ver. 3.0 (http://flj.lifesciencedb.jp)を構築し、全長cDNAの配列情報と機能予測の結果を搭載した。

同定した約1.2万の全長cDNAのスプライスパターンの解析から、約30%は、既知の全長cDNAのTSSと異なるTSSから転写されるmRNA由来の全長cDNAであることがわかった。その内1,962個は、First exon variation(FEV)と言われるTSSが既知の全長cDNAのTSSと異なるエクソン上に存在する全長cDNAだった。遺伝子の機能とmRNAの多様性の関係を調べるためには、protein-coding transcriptごとの発現プロファイルの取得が必要である。そこで、FEV によって産生される全長cDNAに注目し、そのTSS領域の発現頻度をFLJ cDNAの5'-ESTを用いて解析した。その結果、261個の全長cDNA (155遺伝子に相当)のTSSが、組織特異的な発現を示すことを見出した。さらに、そのうち13遺伝子については、TSS領域の発現頻度をReal-time PCRによって解析した。その結果、例えばFGD4遺伝子では、既知の全長cDNAのTSSは胎児脳、精巣で、同定したFLJ55905 cDNAのTSSは免疫系組織(骨髄、脾臓)において発現上昇することがわかった。これらの結果から、組織ごとにTSSを使い分けて多様なmRNAを産生している遺伝子を明らかにした。

5'-ESTを用いたmRNAの多様性解析により、TSSやN末側のアミノ酸配列に起こる多様性について、かなりの知見を得た。しかし、5'-ESTで配列がカバーされていないTSSから500 bp以上下流の領域で起こるmRNAの多様性については、今後解析を行っていく必要がある。TSSを選択的に使うことにより複数の異なるCDSをもつprotein-coding transcriptを産み出す遺伝子の存在を明らかにしたが、それらの発現調節と転写のメカニズムには関係性があることが予想されることから、その究明についても今後行っていく必要がある。

第3章 NT2細胞のレチノイン酸誘導によって発現レベルが変化する遺伝子の選択的スプライシングの解析

疾患解明には、環境要因によっておこるmRNAの多様性の解析が重要であると考えた。そこで、遺伝要因が同一であるヒト培養細胞株NT2がレチノイン酸(RA)によって神経に分化する系をモデルとして、RA誘導によって発現レベルが変化する遺伝子のASの解析を行なった。RA誘導における4点のサンプル(0-day, 1-day, 2-day, 7-day)を用いてDNAマイクロアレイによる網羅的な発現頻度解析を行なった。その結果、 コントロール(0-day)と比較して、各点で経時順に40, 106, 340個のプローブの発現レベルが変動していた。プローブの染色体位置の同定から、それが358遺伝子に相当することがわかった。それらのGO分類による機能予測の結果から、3つの特徴的な機能カテゴリーが見つかったが、その一つである"Transcription regulator activity"というカテゴリーに分類された18の遺伝子は、転写因子であった。また、FLJ Human cDNA Database ver. 3.0を用いたmRNAの多様性の解析より、274遺伝子はASによる多様性をもつ遺伝子であることがわかった。さらに、136遺伝子は、N末端側がオルタナティブに変化して(Alt. N-term)、59遺伝子は、C末端側がオルタナティブに変化して(Alt. C-term)多様性をもつ遺伝子であることがわかった。

転写因子は、様々な遺伝子の発現調節に関与している可能性が高い。そこで、GO分類で同定した18の転写因子についてASにより産生されるCDSの異なるprotein-coding transcriptごとの発現プロファイルとそれの神経分化に対する影響を調べた。Protein-coding transcriptごとの発現レベルは、それぞれの特異的な領域に設計したプライマーを用いてReal-time PCRで解析した。各遺伝子から産生される2種のprotein-coding transcriptの発現レベルの変動が異なる遺伝子(PEG3, HOXA2, RARB)も、それらの発現レベルの変動が同じである遺伝子(HNF1B, PAX6, ETV4, RFX2)も存在していた。さらに、各遺伝子から産生される2種のprotein-coding transcriptが、発現レベルの変動の大きさだけでなく、発現レベルを変化させる時間も異なっている遺伝子(POU5F1, HOXA3, ETV5, ETV1, ZNF483)も見出した。神経分化において、選択的な発現を行なうシステムが存在し、それが遺伝子の機能に影響を及ぼす可能性が高いことが示唆される。

次に、Alt. C-termによって多様性をもつ26の遺伝子も同様の解析を行なった。その結果、12遺伝子は、各遺伝子から産生されるprotein-coding transcriptごとの発現プロファイルが異なっていた。また、RA誘導14日後、35日後のサンプルを用いて同様の解析を行なって発現プロファイルを比較した。

RA応答遺伝子のmRNAの多様性に注目した解析から、産生するprotein-coding transcriptごとのRA誘導による発現プロファイルが異なっている遺伝子を見出した。それらの機能の予測から、その多様性が神経分化に対して影響を及ぼしている可能性も示唆された。遺伝子の機能に影響を及ぼすmRNAの多様性が環境要因によってもおこることもわかった。このことから神経分化に関係する遺伝子のさらなる機能解明には、protein-coding transcriptごとの機能や多様性を調節するメカニズムについてさらなる解析を行い検証していく必要がある。

[まとめ]

以上の結果より、遺伝子がASによって産み出すprotein-coding transcriptついての知識の蓄積に大きく貢献できた。また、環境要因に応じて変化するmRNAの多様性の解析から、遺伝子が状況に応じて産生するmRNAの多様性とその機能との関係についての知見を得た。これらの結果を利用してさらなる解析を行い、産生されるprotein-coding transcriptごとの機能や、多様性を制御するメカニズムを解明していく必要がある。それは、遺伝子の未知なる機能の解明だけでなく、新規医薬品の標的候補遺伝子の探索や、副作用の少ない医薬品の開発へとつながる可能性があると考えられる。

審査要旨 要旨を表示する

ヒトゲノム配列情報より、ヒト遺伝子が2~2.5万しかないことがわかってきた。Alternative splicing (AS)という機構は、1つの遺伝子から異なる複数種のmRNAを産生さ章るという重要な役割を果たすが、疾患の起因となるようなmRNAがASによって産み出される場合があることもわかってきた。さらに、ガンなどの疾患に関与しているといわれる環境要因によるエピジェネティックな遺伝子発現制御は、ASといったmRNAの発現調節にも及んでいると考えられている。これらのことから、申請者は、ヒトmRNAのASによる多様性の解析を行ない、その遺伝子機能に及ぼす影響を検討することは、遺伝子のもつ未知なる機能の解明や遺伝子発現制御機構の解明につながると考えた。

1.ヒト全長cDNAの構造解析

申請者は、mRNAの多様性の解析には、ASによって産み出されるprotein-coding ttanscriptの同定が必要であると考えた。しかし、多くの遺伝子は、複数のエクソンから構成されているため、それをゲノム配列から予測するのは困難であった。そこで、実際に生体内で産生されるmRNAに由来する全長cDNAを網羅的に取得して構造解析を行なった。

申請者は、完全長cDNAライブラリー作製法の一つであるオリゴキャップ法の反応条件を最適化し、mRNA約150ngからでも、5'末端の完全長率が92%のヒトcDNAライブラリー作製が可能という微量化と高効率化に成功した。次いで、約100種類のヒト組織・ヒト細胞から完全長cDNAライブラリーを作製し、そこから取得した146万の全長cDNA(FLJ cDNA)の5'-ESTの配列解析(平均長約500bp)を行なった。それより、約3.5万個を選別し、全長を配列解析後、Coding sequence(CDS)と機能の予測を行った。その結果とリソース等をもとに、様々な実験手法に応用できるGateway cloning systemを導入し、33,275個のGatewayエントリークローンを作製した。13,364個については、小麦胚芽を用いた無細胞系のタンパク合成技術によってタンパク合成し、SDS-PAGEで解析した。さらに、他の機関の公共データベースの配列と合わせてヒトゲノム配列へのマッピングを行った。これらの一連の解析結果を搭載したHuman Gene and Protein Database(HGPD,http://www.HGPD.jp)を構築した。

2.ヒトmRNAの多様性により産生される転写産物の探索・解析

申請者は、遺伝子の機能解析には、ASによって産み出されるmRNAの中でも特にこれまで同定されていないCDSをもつprotein-coding transcrtptの探索が重要であると考えた。そこで、FLJcDNAの5'-ESTを利用した探索を行い、選別した約2万の全長cDNAの配列解析から、既知の全長cDNAと異なるCDSをもつprotein-coding transcriptを11,769個同定することに成功した。

申請者は、mRNAの多様性解析には、その標的となる遺伝子を特定することが重要であると考え、ヒトゲノムではなく、ヒトcDNAによる遺伝子数の予測を行なった。FLJ cDNAより全長配列解析を行なった5.5万の全長配列、146万cDNAのEST配列、公共データベースより集めた他の機関による配列(ヒト全長配列、RefSeq配列、Ensembl配列、EST配列)とヒトゲノム配列との比較を行なった。そこから、染色体領域ごとにマニュアルでprotein-coding transcriptが発現している領域であるかどうかの評価を行ない、遺伝子数を23,241個と予測した。また、FLJ Human cDNA Database ver. 3.0 (http://flj.lifesciencedb.jp)を構築し、全長cDNAの配列情報と機能予測の結果を搭載した。

申請者、同定した約1.2万の全長cDNAのスプライスパターンの解析から、約30%は、既知の全長cDNAのTSSと異なるTSSから転写されるmRNA由来の全長cDNAであることを見出した。その内1,962個は、First exon variation(FEV)と言われるTSSが既知の全長cDNAのTSSと異なるエクソン上に存在する全長cDNAだった。遺伝子の機能とmRNAの多様性の関係を調べるためには、pretein-coding transcriptごとの発現プロファイルの取得が必要である。そこで、FEVによって産生される全長cDNAに注目し、そのTSS領域の発現頻度をFLJ cDNAの5'-ESTを用いて解析した。その結果、261個の全長cDNA(155遺伝子に相当)のTSSが、組織特異的な発現を示すことを見出した。さらに、そのうち13遺伝子については、TSS領域の発現頻度を詳細に解析した結果、例えばFGD4遺伝子では、既知の全長cDNAのTSSは胎児脳、精巣で、同定したFLJ55905 cDNAのTSSは免疫系組織(骨髄、脾臓)において発現上昇することを見出した。これらの結果から、組織ごとにTSSを使い分けて多様なrnRNAを産生している遺伝子を明らかにした。

3.NT2細胞のレチノイン酸誘導によって発現レベルが変化する遺伝子の選択的スプライシングの解析

申請者は、疾患解明には、環境要因によっておこるmRNAの多様性の解析が重要であると考えた。そこで、遺伝要因が同一であるヒト培養細胞株NT2がレチノイン酸(RA)によって神経に分化する系をモデルとして、RA誘導によって発現レベルが変化する遺伝子のASの解析を行なった。RA誘導における4点のサンプル(0-day,1-day,2-day,7-day)を用いてDNAマイクロアレイによる網羅的な発現頻度解析を行ない、コントロール(0-day)と比較して、各点で経時順に40,106,340個のプローブの発現レベルが変動していることを見出した。それらのプローブの染色体位置の同定から、それが358遺伝子に相当することを見出した。それらのGO分類による機能予測の結果から、3つの特徴的な機能カテゴリーが見つかったが、その一つである"Transcription regulator activity"というカテゴリーに分類された18の遺伝子は、転写因子であった。また、FLJ Human cDNA Database ver.3.0を用いたmRNAの多様性の解析より、274遺伝子はASによる多様性をもつ遺伝子であることを見出した。さらに、136遺伝子は、N末端側がオルタナティブに変化して(Alt.N-term)、59遺伝子は、C末端側がオルタナティブに変化して(Alt. C-term)多様性をもつ遺伝子であることを見出した。

転写因子は、様々な遺伝子の発現調節に関与している可能性が高い。そこで、申請者は、GO分類で同定した18の転写因子についてASにより産生されるCDSの異なるprotein-coding transcriptごとの発現プロファイルとそれの神経分化に対する影響を調べた。Protein-codingtranscriptごとの発現レベルは、それぞれの特異的な領域に設計したプライマーを用いて詳細に解析した。各遺伝子から産生される2種のprotein-coding transcriptの発現レベルの変動が異なる遺伝子(PEG3,HOXA2,RARB)も、それらの発現レベルの変動が同じである遺伝子(HNFIB,PAX6,ETV4,RFX2)も存在していることを見出した。さらに、各遺伝子から産生される2種のprotein-coding transcrtptが、発現レベルの変動の大きさだけでなく、発現レベルを変化させる時間も異なっている遺伝子(POU5F1,HOXA3,ETV5,ETVI,ZNF483)も見出した。神経分化において、選択的な発現を行なうシステムが存在し、それが遺伝子の機能に影響を及ぼす可能性が高いことが示唆された。

次に、申請者は、Alt.C-termによって多様性をもつ26の遺伝子も同様の解析を行なった。その結果、12遺伝子は、各遺伝子から産生されるprotein-coding transcriptごとの発現プロファイルが異なっていることも見出した。また、RA誘導14日後、35日後のサンプルを用いた同様な解析も行なって発現プロファイルを比較した。

以上のように、申請者は、RA応答遺伝子のmRNAの多様性に注目した解析から、産生するprotein-coding transcriptごとのRA誘導による発現プロファイルが異なっている遺伝子を見出した。それらの機能の予測から、その多様性が神経分化に対して影響を及ぼしている可能性も示唆された。また、遺伝子の機能に影響を及ぼすmRNAの多様性が環境要因によってもおこることも見出した。

以上より、申請者は、遺伝子がASによって産み出すprotein-coding transcriptついての知識の蓄積に大きく貢献した。また、環境要因に応じて変化するmRNAの多様性の解析から、遺伝子が状況に応じて産生するmRNAの多様性とその機能との関係についての知見も得られた。さらに、ヒトmRNAのスプライシングによる多様性の解析が、遺伝字の未知なる機能の解明だけでなく、新規医薬品の標的候補遺伝子の探索や、副作用の少ない医薬品の開発へとつながる可能性があることを示唆した。これらの研究成果は、博士(薬学)の学位を授与するに値すると判断した。

UTokyo Repositoryリンク