学位論文要旨



No 127548
著者(漢字) 入江,拓磨
著者(英字)
著者(カナ) イリエ,タクマ
標題(和) DNA一次配列からのプロモーター活性予測
標題(洋)
報告番号 127548
報告番号 甲27548
学位授与日 2011.09.27
学位種別 課程博士
学位種類 博士(生命科学)
学位記番号 博創域第728号
研究科 新領域創成科学研究科
専攻 メディカルゲノム専攻
論文審査委員 主査: 東京大学 教授 菅野,純夫
 東京大学 教授 上田,卓也
 東京大学 教授 中井,謙太
 東京大学 教授 伊藤,隆司
 東京大学 准教授 佐藤,均
内容要旨 要旨を表示する

遺伝子発現制御は多くの生命現象において重要な制御段階である.遺伝子発現制御は転写・翻訳など多段階の制御ステップで構成されるが,中でも転写開始の制御は最初のステップであるため主要な制御段階であると言える.転写開始の制御は遺伝子近傍のプロモーターと呼ばれるゲノムの制御領域によって担われている.現在ゲノム規模でプロモーター領域の配列解析をすることが可能であり,プロモーターの配列情報を用いて,細胞の転写制御システムの全体像を明らかにすることが期待できる.実際にプロモーター配列情報を用いて転写制御の数学的なモデル化の方法が幾つか提案されている.従来の転写制御モデルの構築には,マイクロアレイなどを用いた解析が主に用いられてきた.そのため多くの予測モデルは転写応答性,すなわち遺伝子ごとの変化・相対値の予測モデルで,プロモーター自体の強度(転写の絶対量)を予測・モデル化する研究はほとんど存在しなかった.またmRNAレベルの発現は様々な制御ステップを経た産物である.すなわちプロモーター配列以外にもゲノムのCpGのメチル化,クロマチン構造,mRNA合成効率,分解効率など様々な制御の影響の総体であるため,プロモーター活性の絶対量を予測することは困難であった.したがってプロモーターのDNA配列情報とそこに内在している転写活性化能の関係の解析には別の実験的アプローチを取る必要があると考えた.本研究では,体系的ルシフェラーゼアッセイの情報を用いることで,DNA一次配列情報からプロモーター活性を予測が可能であるか検証し,プロモーター活性予測モデルの構築を試みた.さらに構築したプロモーター活性予測モデルを用いてヒトゲノムにおけるプロモーター活性予測値の分布と転写に関わっていると考えられる転写開始点,RNAポリメラーゼIIの結合位置,ヌクレオソーム構造の情報を用い,DNA一次配列のプロモーター活性とmRNAの発現量,転写に関係する情報との比較を行った.

転写活性化能の測定には定量的ルシフェラーゼレポーターアッセイの手法を用いた.HEK293由来の完全長cDNAの5'端情報により決定されたプロモーター領域451種類,lncRNAのプロモーター領域35種類,非プロモーター領域248種類を用い,HEK293細胞内における転写活性の測定を行った.DNA配列に存在する転写因子結合配列(transcription factor binding site,以下TFBS)のモチーフ探索にはposition weight matrix (PWM)としてTRANSFAC2008.3を用いたマトリックス検索を行った.モチーフの候補及び閾値にはvertebrate_non_redundant_minFP.prfを用い,167種類のTFBSを解析対象とした.

プロモーター活性予測モデルには,プロモーター活性が各TFBSのスコアの和とした次のような線形和モデルとした.

log(Y)=Σ AX

YをDNA断片のプロモーター活性,AをTFBSの数(またはDNA-転写因子の親和性のスコア),XをTFBSのプロモーター活性への寄与のスコアとした.各TFBSを説明変数,DNA断片のプロモーター活性を目的変数としたモデルとした.重回帰分析の手法でXの推定値を計算し,プロモーター活性予測値を得た.モデルの評価はプロモーター活性の実験値と予測値の相関係数(Pearson's correlation coefficient)値を用いた.重回帰分析の結果,プロモーター活性の実験値と予測値の相関係数がr=0.82となり,ある程度の相関係数が得られた.また実験値の5倍以内の範囲で予測できたものが全体の約75%であった.次にモデルの改善が可能であるか検討した.(1) TFBSのマトリックス検索時のスコア (2)TFBSの存在位置 (3)変数選択について検討した.PWMは位置特異的な塩基の出現確率をスコア化したもので,そのスコアが高いほどコンセンサス配列に近くなるため,スコアが高いほど転写因子とDNAとの親和性が高くなると考えられる.そこでPWMのスコアの利用を検討した.TFBSの存在位置については,幾つかのTFBSは転写開始点付近に存在するが知られており,転写開始点付近に存在しているTFBSに機能的なものが存在する確率が高いと考えた.また機能的ではないと考えられるTFBSについても計算から除外することで予測精度の向上が可能であるか検討した.得られたモデルに対し赤池情報量規準を用いることで,プロモーター活性の説明に寄与の大きいTFBSの選択を行った.最適なマトリックススコア及び領域の条件を適応した結果,実測値と予測値の相関係数がr=0.87(図1左),約86%のクローンにおいて,予測値が実測値の5倍以内に予測できた(図1右).この得られたモデルに対して10分割交差検定によるモデルの汎化性の評価を行ったところ,予測値と実測値の高い相関が得られ(r = 0.83),過学習の影響も小さく,未知データに対しても有効であるモデルを構築することができた.

ルシフェラーゼアッセイの系に対して精度の高いモデルを構築することができた.次にmRNAレベルの発現をin vivoの転写活性化能情報として用いてプロモーター活性予測モデルとの比較を行った.転写の情報としてオリゴキャップ法とIllumina GAを組み合わせたTSS-seq法による転写開始点情報を用いた.18,686種類のRefseq遺伝子の上流1kbの領域をプロモーターとし,その領域のプロモーター活性予測値とマップされた転写開始点の頻度情報と相関を調べた.その結果,これらの相関は極めて低かった.次に,HEK293細胞で転写されている遺伝子とそうではない遺伝子の区別が可能か,モデルの定性的な予測精度について評価を行った.充分に転写活性があると考えられる5ppm (parts per million)以上の転写開始点が得られたプロモーター領域をHEK293細胞において"active"な領域(4,749領域)とし,TSSが観測されなかったプロモーター領域を"silent"な領域(8,315領域)とした.それぞれの領域のプロモーター活性予測値を算出した結果,前者のセットに対して与えられた予測スコアの分布と後者のセットに対して与えられた予測スコアの分布は,重なりは大きいものの,有意な差異が認められた(図2棒グラフ)(P<1×10-100;Wilcox test).高いスコアを与えたプロモーターはHEK293細胞において有意な転写活性を示すプロモーターであり,本研究によるモデルによりHEK293で発現しているプロモーターとそうでないプロモーターに定性的な差を検出することが可能であった.このことは,このモデルが単なるプロモーター領域の予測ではなく,HEK293中での転写が行われているプロモーターの予測が可能であることを示している.

しかしながら,転写が確認できない(TSSタグ数 = 0)ものの高い予測値( > 1)を得たプロモーター領域も存在していた.HEK293細胞内のRNA polymerase II(Pol II)の結合箇所をChIP (Chromatin immunoprecipitation) Seq法により調べたところ,予測スコア>1,TSSタグ0の3,600領域中約39%の領域おいてPol IIの結合が確認された.さらに予測スコアの値とPol IIの結合の割合にも相関が見られた(図2,青線).また,HEK293細胞のNuleosome seqのデータを利用し,遺伝子近傍のクロマチン構造を解析した結果,プロモーター活性予測値 >1,TSS>5ppmの領域では,転写活性の高い遺伝子に特徴的な開いたクロマチン構造を取っていた(図3A).さらに転写が見られないものの高いプロモーター活性予測値を与えた領域においても開いたクロマチン構造をとる傾向にあった(図3B).すなわち高いプロモーター活性を与えた領域は転写の有無に関わらず,開いたクロマチン構造を取り,Pol IIが結合していた.これらの例は転写後速やかに分解されTSSが検出できない遺伝子,もしくはクロマチン構造を開きPol IIをリクルートすることはできるが転写伸長を起こす要因に欠けている遺伝子であると示唆される.後者の例は近年解析が進んでいる"transcriptional pausing"の例であると考えられる.

またプロモーター活性予測値のゲノム全体の分布について解析した.ヒトゲノム配列を1.2kbの幅で分割しそれぞれのプロモーター活性予測値を算出した.その結果,高いプロモーター予測値lncRNAのクローンの5'端領域とのオーバーラップする例を確認できた.またRefSeq遺伝子の5'端領域と同様に,TSSが存在していないものの高いプロモーター活性予測値を得た領域において開いたクロマチン構造を取る傾向にあることも確認でき,潜在的に高いプロモーター活性をもつ領域がヒトゲノム中に多数存在していることが示唆された.

以上の結果から,体系的なルシフェラーゼアッセイの情報を用いることによって,単純なモデルではあるがDNA一次配列のプロモーター活性予測モデルを構築できたと考えている.またヒトゲノム配列のプロモーター活性予測値の解析から,転写が行われていないが潜在的に高いプロモーター活性を有する領域を大多数見出した.本研究のプロモーター活性予測モデルがゲノム配列とトランスクリプトームを結ぶ転写制御の全体像の理解へ繋がると期待している.

論文目録

Predicting promoter activities of primary human DNA sequences.

Takuma Irie, Sung-Joon Park, Riu Yamashita, Masahide Seki, Tetsushi Yada, Sumio Sugano, Kenta Nakai, Yutaka Suzuki

Nucleic Acids Research. in press

図1:プロモーター活性予測モデルの精度

(左)プロモーター活性予測値(x軸)と実測値(y軸)との相関.(右)予測された値の実測値からの範囲

図2:TSS seqとPol II seqを用いた予測モデルの評価

RefSeq遺伝子の5'上流領域のプロモーター活性の予測値スコア(x軸)の分布のヒストグラム(頻度;y軸左側),棒グラフ赤(>5ppm),青(0ppm),緑(ランダム領域) . 折れ線グラフはChIP Seq(pol II)の結合が確認された領域の割合 (y軸右側).赤(>5 ppm),青(0ppm),緑(ランダム領域)

図3:RefSeq遺伝子5'端領域のヌクレオソーム構造

RefSeq遺伝子5'周辺領域のヌクレオソーム構造を示した.転写開始点を基準(0)としてヌクレオソーム占有率(y軸)を計算した.(A)予測値>1,TSS > 5ppm,(B)予測値>1,TSS=0,(C)予測値<1,TSS=0のRefSeq遺伝子

審査要旨 要旨を表示する

本論文は,ヒト培養細胞中のプロモーター活性の絶対値の予測モデルの構築とその検証について述べられている.mRNAの発現量は多段階の制御を受けた産物であるため,プロモーター配列以外の影響が大きいといえる.そこで本論文では,DNA配列情報とプロモーター活性と関連付けるために,体系的なルシフェラーゼアッセイを用いた実験的アプローチをとっている.プロモーター活性予測モデルには既知の転写因子結合配列を説明変数とした線形和モデルという単純なモデルを用いているが,実測値と予測値の相関係数がr=0.87をとり,比較的予測精度の高いモデルを構築することができたといえる.また,10分割交差検定の結果,相関係数の平均が0.83となり未知なDNA配列へも有用なモデルを構築できたといえ,従来の転写情報のモデル化手法と比較しても精度の高いモデルであるといえる.高い予測精度を達成が可能であった理由として,定量的なプロモーター活性情報に体系的ルシフェラーゼアッセイの測定結果を利用したことが挙げられる.

in vivoな転写活性の指標としてTSS-Seqの情報を用いてプロモーター活性予測モデルのゲノム配列情報を用いた評価を行ったところ,RefSeq5'端領域のプロモーター活性予測値とTSSのタグ数との相関は見られなかったが,RefSeq5'端領域をTSSが観察された領域と観察されない領域で分類を行ったとき,プロモーター活性予測値の分布に有意な差が見られ,プロモーター領域の定性的な予測に用いることが可能であった.さらにRNAポリメラーゼIIのChIP-SeqとNucleosome-Seqの情報との比較を行った結果,TSSが観察されなかった領域で高いプロモーター活性予測値を得た領域では,RNAポリメラーゼIIの結合している割合が増加し,また転写が行われている領域に特徴的な開いたクロマチン構造をとる傾向にあることがわかった.このような領域は転写産物が速やかに分解される遺伝子か,クロマチン構造を開き,Pol IIのリクルートが行われるものの転写伸長に関する因子にかけているため転写産物が見られない例であると考えられる.また遺伝子間領域においても転写産物が観察されないものの高いプロモーター活性予測値を得た領域についてはそうでない領域と比べ,Pol IIの結合,開いたクロマチン構造をとる傾向にあることがわかった.以上のことから,プロモーター活性予測モデルによって潜在的にプロモーター活性を持つ領域を予測することが可能であり,ゲノム中に潜在的にプロモーター活性を持っていると領域が多数存在していることが示唆された.ゲノム規模での転写の予測としては前段階的ではあるものの,ゲノム配列情報とトランスクリプトームを繋ぐ,転写制御機構の包括的な理解に向けての足がかりになると思われる.

なお,本論文は,朴 聖俊・山下 理宇・関 真秀・矢田哲士・菅野 純夫・中井 謙太・鈴木 穣との共同研究であるが,論文提出者が主体となって実験及び解析を行ったもので,論文提出者の寄与が十分であると判断する.

したがって,博士(生命科学)の学位を授与できると認める.

UTokyo Repositoryリンク