学位論文要旨



No 127236
著者(漢字) 武田,淳一
著者(英字)
著者(カナ) タケダ,ジュンイチ
標題(和) 完全長cDNA情報を用いたヒトの選択的スプライシング解析
標題(洋) Large-scale identification and characterization of human alternative splicing variants based on full-length cDNAs information
報告番号 127236
報告番号 甲27236
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(生命科学)
学位記番号 博創域第683号
研究科 新領域創成科学研究科
専攻 メディカルゲノム専攻
論文審査委員 主査: 東京大学 教授 菅野,純夫
 東京大学 教授 服部,正平
 東京大学 教授 中井,謙太
 東京大学 准教授 松田,浩一
 東京大学 准教授 富田,野乃
内容要旨 要旨を表示する

序論

選択的スプライシング(alternative splicing; AS)は、転写されたmRNA前駆体(pre-mRNA)上から様々なパターンでpre-mRNAのイントロンがスプライス除去され、複数の異なるエクソンによって構成される成熟mRNAを生成する現象である。ASは、ヒトを含む高等真核生物において、複雑な細胞内遺伝子システムを構成するためのタンパク機能の多様化などに貢献していると考えられているが、そのメカニズムや全体像は不明である。これまでヒトのAS解析は、EST情報を用いた転写物の一部あるいは遺伝子予測の情報を含む転写産物モデルを用いて行われてきた。これらは5'末端の情報が不十分のため、検出されるASイベントの位置にバイアスがかっていたり、アミノ酸配列の情報が欠けることによって正しいタンパク機能アノテーションを行うことができない。本研究で、筆者はヒトの転写産物情報として5'末端が転写開始点である完全長cDNAを用い、さらにそれらを計算機プログラムおよびマニュアルでアノテーションすることによって、ESTや遺伝子予測のデータでは不可能であった精度の高いASバリアントのゲノムワイドな同定と、そのタンパク機能アノテーションの解析を行った。また、共通祖先遺伝子であるオルソログについて、ヒトとマウスでASバリアント単位での比較を行い、その保存度についての解析を行った。その結果、タンパク機能アノテーションに影響を与えるASバリアントは多数認められるものの(1章)、ヒトとマウスで進化的に保存されたASバリアントは相対的に非常に少ないこと、そしてヒト特異的なASバリアントを持つ遺伝子には、生殖に関係し精巣で発現するタンパク機能が濃縮して観察されたこと(2章)を明らかにした。また、これらの解析結果を一般に公開すべく、データベース(H-DBAS; http://www.h-invitational.jp/h-dbas/)を構築した(3章)。さらに、次世代シークエンサーによるヒト細胞内のポリソーム画分、あるいは核画分から精製したRNAを用いたRNA-Seqタグの解析から、翻訳に用いられていると思われる転写産物と、核内に留まり翻訳には用いられていないと思われるASバリアントを区分して解析した(4章)。

材料と方法

ヒトの完全長cDNAは、主にヒト完全長cDNAアノテーション会議(H-Invitational 2)でアノテーションされた56,419本の配列を用いた。同一遺伝子内のcDNA配列について、ゲノム上のエクソン-イントロン境界を総当たりで比較し、ASバリアントを同定した。同じ構造を持つASバリアントのグループからcDNAを1つ選び、それを代表ASバリアント(representative AS variant; RASV)と定義した。このRASVを用い、CDSやタンパク機能アノテーションの違いを比較した。また、従来の典型的な概念と合致しない複雑なASパターン、すなわち、タンデムにマッピングされた2つの遺伝子を橋渡しするRASVが存在するが、リードスルーとは異なりCDSを同じフレームで共有しているもの(ブリッジ型)、同一遺伝子内で入れ子状にマッピングされた2つのRASVのうち、転写領域の一部は共有しているがCDSは全く共有していないもの(ネスト型)、200アミノ酸以上のCDSを持つ2つのRASVのうち、CDSは共有しているもののフレームがずれてアミノ酸配列が異なるもの(マルチプルCDS型)についても区分し、解析に用いた。

ヒト完全長cDNAから同定したRASVの進化的保存度を調べる比較ゲノム解析は、FANTOM3およびMammalian Gene Collection(MGC)から収集したマウス完全長cDNAを対象として行った。ヒトとマウスのゲノムアラインメントは、BLASTZでアセンブルしたものを用いた。種間保存度の判定はエクソン単位で行い(閾値はcoverage=70%かつidentity=60%)、エクソンアラインメントの結果をもとにRASV単位での保存度を判定した。ヒトのRASVと対応するマウスのcDNAが全て保存されたエクソンで構成されていた場合、それらを同一スプライシングバリアント(equally-splicing variant; ESV)と定義した。遺伝子に2つ以上のESVが存在していた場合、すなわち、同一遺伝子内でASイベントを含む2つ以上のRASVが保存されていた場合、それらを保存AS遺伝子と定義し、タンパク機能アノテーションの統計解析に用いた。

次世代シークエンサー(Illumina GA)によるRNA-Seq解析には、ヒトDLD-1細胞の細胞質・核・ポリソームの各画分から精製されたRNAを用いた。そのRNA-Seq解析の結果から、計148,376,598本の36bpシングルエンドタグ(RNA-Seqタグ)配列を得て、これらをショートリードのアセンブルプログラムであるBowtieを使ってヒトゲノム上にマッピングし、スプライスジャンクション検出プログラムであるTopHatを使ってスプライスジャンクションを検出した。これらのスプライスジャンクションから、既知転写物(RefSeq)のASジャンクションと同じゲノム上の位置にあるものを同定し、さらに核に特異的なものを選択した。ポリソーム由来のRNA-Seqタグについては、RefSeqにマッピングした。

結果と考察

1章:ヒト完全長cDNAを用いた選択的スプライシングのゲノムワイドな同定と、タンパク機能アノテーションに影響を与える選択的スプライシング

全ヒトゲノム中で、18,297のRASV(6,877 AS遺伝子)を同定した。ASには典型的な5つのパターン(カセット型エクソン、選択的3'スプライス、選択的5'スプライス、相互排他的エクソン、選択的保持イントロン)があり、それぞれ、3,020、1,758、1,686、210、1,970の遺伝子において見出した。CDSに影響を及ぼすAS遺伝子は6,005(87%)であり、さらに4つのタンパク機能アノテーション(タンパク機能モチーフ・GO・細胞内局在化シグナル・膜タンパクドメイン)に影響を与えるAS遺伝子は4,481(65%)であった。加えて、AS遺伝子は非AS遺伝子に対してタンパク機能モチーフを含む頻度が有意に高いことを確認した。これらの結果は、ASがタンパク機能の多様化に大きく寄与していることを示唆する。タンパク機能モチーフを用いた解析では、IκB kinase-ε(IKBKE)内にprotein kinaseを含まない新規のRASVを同定した。このRASVは、protein kinaseを含むRASVの機能の一部を失っていると考えられるため、細胞内におけるNF-κBのシグナル伝達に際し、モジュレーターの役目を果たしていると考えられる。なお、AS遺伝子に濃縮して現れるGOとタンパク機能モチーフは、ほとんどがシグナル伝達と転写制御であった。また、RASV間でほとんどCDSが異なる3種類の複雑なASパターン(ブリッジ型・ネスト型・マルチプルCDS型)を有する遺伝子は、316(5%)存在した。これらは、1つの遺伝子から明らかに異なるタンパクを複数生成するため、細胞内遺伝子システムの更なる複雑化に寄与する興味深い例だと考えている。

2章:ヒトとマウスの完全長cDNAを用いた、ゲノムアラインメントを介した種間保存およびヒト特異的選択的スプライシングのタンパク機能アノテーション解析

マウスのcDNAに対するヒトRASVのエクソン自体の保存度は高い(74%)が、ESVでは23%、保存AS遺伝子になると3%しか存在しなかった。GOとタンパク機能モチーフ解析の結果、保存AS遺伝子に濃縮して現れるRASVの機能は、peroxidase activity・bZIP transcription factor・TSC-22など、主に細胞の恒常性を維持するためのものであることが明らかとなった。これは、種に関係なく細胞の基本的な機能のため、進化的に不変なAS配列を必要とするからだと考えられる。保存AS遺伝子の例として、phosphoinositide-3-kinase (PI3 kinase) regulatory subunitを示す(Figure 1)。この2つのRASVは、insulin receptor substrate (IRS) proteinからPI3-kinaseのp110-kDa catalytic subunitへ、異なる効率でシグナルを伝達していることが知られている。一方、ヒト特異的なAS遺伝子に有意に現れるタンパク機能モチーフは、GAGEやT-complex 11など、精巣で発現するものが多かった。精巣は、脳と同様従来からASが多数見出される組織として知られ、種特異的機能獲得あるいは種分化を解析する上で重要な組織だと考えられている。ヒトとマウスのESVや保存AS遺伝子の割合が少ないことと合わせると、多くのASバリアントは種ごとに独自に進化してきたことを示唆する。

3章:ヒト選択的スプライシングの解析データを盛り込んだデータベースの開発と公開

完全長cDNAに依拠し、ASを転写産物バリアント単位で解析することが可能で、さらに種間比較も行えるデータベースは世界的に見てもユニークである。これらの情報を一般に向けて発信するため、独自のヒトASのデータベース、H-DBAS(Human-transcriptome DataBase for Alternative Splicing)を開発し、公開した(URL: http://www.h-invitational.jp/h-dbas/)。

H-DBASは2006年にバージョン1が公開され、2010年の9月にはバージョン6まで更新されている。H-DBASの特徴は、ユーザーがビューワー上でRASVをインタラクティブに操作できることである。特に、前述した解析の結果であるタンパク機能アノテーションに影響を与えるヒトのRASVや、ヒトとマウスのESV・保存ASを直感的に操作して観察することができる。また、6カテゴリー計22の検索項目から目的のRASVを探すための詳細検索や、配列相同性の高いRASVを探すためのBLAST検索など、有用な検索機能も実装している。

4章:RNA-Seqタグを用いた、選択的スプライシングの翻訳検証

ヒト細胞の細胞質・核・ポリソームの各画分のRNA-Seq解析により検出したスプライスジャンクションのうち、既知遺伝子として採用したモデル転写産物であるRefSeqのスプライスジャンクションとゲノム上の位置が一致したものは、それぞれ47,615、47,260、51,041であった。同一遺伝子内でこれらがASを構成するものは、1,067、1,021、1,114であった。このうち、254のASジャンクションを核で特異的に検出した。これらのASバリアントは核内に留まり、タンパクに翻訳されないと考えられる。この例として、caspase 4, apoptosis-related cysteine peptidase (CASP4)を示す(Figure 2)。一方、ポリソーム由来のRNA-Seqタグがマッピングされた8,440のRefSeq ASバリアントについては、タンパクへ翻訳されると考えられる。本解析では1つの細胞のみを用いたが、将来このような翻訳情報を様々な細胞から得ることにより、ヒト特異的に多数生じたASバリアントは生物学的に意義があるのか、あるいはゲノムに内在する転写のノイズとして生じたのか、についてのアノテーションを付加することができると考えている。

Figure 1 保存AS遺伝子の例(PI3-kinase regulatory subunit)。ヒトBC094795とマウスBC026146、ヒトBC030815とマウスBC051106がそれぞれESVである。緑がCDS、黄がUTR、赤がタンパク機能モチーフを表す。この図では、構成的スプライシングイントロンを短くして表示している。

Figure 2 タンパクに翻訳されないと考えられるASバリアントの例(CASP4)。上段の桃色の背景は、RNA-Seq解析によって核特異的に検出され、かつRefSeqのASジャンクション(赤色の太線)とゲノム上の位置が一致したスプライスジャンクションである。中段の水色の線は細胞質、紺色の線は核、茶色の線はポリソーム由来のスプライスジャンクションを表し、その下の数字はRNA-Seqタグの数を示す。太線は細胞画分特異的であることを示す。下段のスプライスジャンクション上のRNA-Seqタグの数を示すバーの色は、中段と同じ。

審査要旨 要旨を表示する

本論文は4章からなり、第1章は完全長cDNAを用いたヒトの選択的スプライシング(AS)バリアントの同定とタンパク機能アノテーション解析、第2章はヒトとマウスの完全長cDNAを用いたASバリアントの比較ゲノム解析、第3章はASのデータベースであるH-DBASの構築、第4章は次世代シークエンサーから得たRNA-Seqタグを用いたASバリアントの翻訳検証について述べられている。ヒトのAS解析は、これまでESTを用いた転写物の一部、遺伝子予測の情報を含む転写産物モデル、あるいはエクソン-エクソンジャンクションのプローブを用いることによって行われてきた。しかし、これらは転写物の5'末端(転写開始点)の情報が不十分なため、エクソンの数や順番に正確性を欠くという欠点がある。この欠点を克服したのが、5'末端が転写開始点である完全長cDNAである。本論文では完全長cDNAを用いることにより、転写物上のエクソンの位置が明確なASバリアントを初めてゲノムワイドに同定し、その特徴を解析している。さらに、EST、転写産物モデル、およびマイクロアレイのデータでは不可能であった、精度の高いASバリアントのタンパク機能アノテーション解析および比較ゲノム解析を行っている。これらの解析結果から、タンパク機能に影響を及ぼすヒトのAS遺伝子が多いこと、一方でマウスとの種間保存AS遺伝子は非常に少ないこと、また、非保存AS遺伝子に濃縮して現れるタンパク機能は生殖に関係していることを明らかにした。ヒトのASバリアントは、計算機による自動アノテーションだけではなくマニュアルでもアノテーションを行っている。これにより、典型的なASパターンに合致しない複雑なASパターンを見出している。本論文ではこの他に、次世代シークエンサーを使用したRNA-Seq解析によるASバリアントの翻訳検証を行っている。ヒトDLD-1細胞のポリソームおよび核画分由来RNA-Seqタグのマッピング結果により、翻訳している(ポリソーム由来)または翻訳していない(核由来)と考えられるASバリアントを区分した。また、これらの解析結果を網羅的に検索、そしてインタラクティブに閲覧できるデータベースの構築を行った。

本論文は、5'末端が転写開始点である完全長cDNAを用いることにより、転写物上のエクソンの位置が明確なASバリアントのゲノムワイドな同定および解析を初めて行った。さらに、次世代シークエンサーの膨大なデータを用いることにより、細胞単位でASバリアントに翻訳情報を付加することを可能にした。このような精度および網羅性の高い情報を用いた解析は、未だ不明な点の多いASが寄与する細胞内遺伝子機能における役割の解明に向けて大きく貢献するものであると考えられたために、博士(生命科学)を授与するのに適当であると判断された。

UTokyo Repositoryリンク http://hdl.handle.net/2261/50469