学位論文要旨



No 118786
著者(漢字) 加藤,護
著者(英字)
著者(カナ) カトウ,マモル
標題(和) 転写因子と結合モチーフによる組合せ的転写制御の推測
標題(洋) Identifying Combinatorial Regulation of Transcription Factors and Binding Motifs
報告番号 118786
報告番号 甲18786
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第4439号
研究科 理学系研究科
専攻 物理学専攻
論文審査委員 主査: 東京大学 教授 桑島,邦博
 東京大学 教授 高木,利久
 東京大学 教授 宮下,保司
 東京大学 助教授 能瀬,聡直
 東京大学 助教授 小形,正男
内容要旨 要旨を表示する

生物にとって必要不可欠な細胞内プロセスの一つが転写である。転写は遺伝子発現の最初の段階であり、遺伝子の発現パターンは発生制御、形態形成、細胞分化、組織特異性、ホルモン伝達、細胞応答といった生命現象と直接関係する。転写は真核生物において高度に複雑であり、複数の遺伝子特異的転写因子が関与すると考えられている。遺伝子特異的転写因子は、プロモーターに存在する短いDNA配列(転写因子結合モチーフ)に結合し、クロマチン構造の変化、あるいは転写前駆複合体形成のあらゆる段階で影響を及ぼす。この様に、真核生物の転写は(遺伝子特異的)転写因子とその結合モチーフとの組合わせによって制御され、これらの様々な組み合わせが複雑な生命現象を生み出す第一歩であると考えられている。これを転写因子と結合モチーフの組合せ的転写制御と言う。

ゲノム研究において、遺伝子 (mRNA) 発現を全遺伝子規模で調べるために開発された技術が、DNAマイクロアレイである。DNAマイクロアレイは遺伝子のmRNAとハイブリダイズするcDNAが全遺伝子規模で貼り付けられたスライドガラスであり、これを使って全遺伝子の(通常、相対的な)mRNA存在量を測定する事ができる。その規模は、例えば出芽酵母で測定されたケースを例に挙げれば、約6000遺伝子で17時刻点である。この単純な単細胞真核生物においてさえ約100,000程度の実数データが得られる事になり、これを手作業で処理する事は不可能である。大規模なデータを適切に処理し、生物学的に意味のある情報を抽出する計算機的方法の開発が必要となる。

マイクロアレイデータを処理する一般的な計算機的方法は次のようなものである。最初に、DNAマイクロアレイデータから得られた遺伝子発現パターンをクラスタリングする。次に、クラスター化された遺伝子群に対してその上流プロモーター配列を調べ、統計的有意に高頻出している、指定された長さの一種類のモチーフを抽出する。しかしながらこの方法には2つの限界点がある。一つ目は、真核生物の転写において基本となる組み合わせ的制御を解明できないというものである。単一モチーフだけを抽出するので、組み合わせ的制御を解明する事は出来ない。二つ目は、たとえモチーフが抽出できたとしても、それに結合する転写因子を特定する事が出来ないというものである。

近年DNAマイクロアレイとは異なるタイプのマイクロアレイ技術が開発された。ChIP(クロマチン免疫沈降)マイクロアレイである。これには、コーディング領域にハイブリダイズするcDNAの代わりに、ノン・コーディング領域にハイブリダイズするcDNAが全遺伝子規模で貼り付けられている。対象とするタンパク質が結合しているプロモーターを抗体を用いて選別し、それをChIPアレイにかける事によって、全遺伝子規模で(一)タンパク質-(全)プロモーター間の相互作用の有無を調べることが出来る。最近、Yeast Proteome Database によって注釈付けされているほとんど全ての酵母転写因子に関するChIPマイクロアレイデータが公表された。ChIPマイクロアレイは、転写因子がプロモーターに結合するか否かの強力な証拠を提供するので、転写因子が結合するターゲット遺伝子の同定だけでなく、転写因子が結合する制御モチーフの同定までゲノムレベルで行える可能性がある。しかしながら現在のところ、ChIPデータを処理して、DNAマイクロアレイデータやプロモーター配列データと統合化し、従来方法が持つ2つの限界点を克服するコンピューティショナルな方法は開発されていない。

本研究において、私はこれを克服する新しい統合的方法を開発した。従来方法ではDNAマイクロアレイデータだけを使用し、一種類の高頻出モチーフだけを探索していた。本方法ではChIPマイクロアレイから得られるデータを加え、これを使ってモチーフに結合する転写因子を推定する。さらに、一種類のモチーフではなく、複数種類のモチーフを探索するコンビナトリアル・モチーフ解析を採用する。本研究ではこれらを適切に統合化し、ある遺伝子セットに特異的なモチーフ・コンビネーションを予測するのみならず、モチーフ・コンビネーションを構成する要素モチーフに結合する複数の転写因子を予測する事をも可能にした。

本方法は4つのステップからなる。1) 第一ステップにおいて、まずChIPマイクロアレイデータから転写因子のターゲット遺伝子を決定し、そのプロモーターにおいて有意に高頻出している単一のモチーフを同定する。2) 第二スチップにおいて、それらモチーフのあらゆる組み合わせを列挙し、ある特定の遺伝子セット(本研究においては、G1、S、S/G2、G2/M、またはM/G1 phase で特異的に発現する遺伝子セット)において有意に高頻出しているモチーフ・コンビネーションを選別する。3) 第三スチップで、プロモーター上にそれらモチーフ・コンビネーションを持っている遺伝子に対して、DNAマイクロアレイから得られる発現パターンをチェックし、発現パターンが時刻にわたって凝集しているモチーフ・コンビネーションをスクリーニングする。4) 最後に、ChIPデータをもう一度使い、それら選ばれたモチーフ・コンビネーションを持つプロモーター・セットに結合する転写因子群を同定し、さらに(モチーフ・コンビネーションを構成する)要素モチーフに結合する転写因子群を第一ステップの結果から列挙し、これら2つの転写因子群をマッチングして、モチーフ・コンビネーションを構成するそれぞれの要素モチーフに結合する転写因子を推測する。この手続きによって、ある遺伝子セットに高頻出するモチーフ・コンビネーションと、その要素モチーフに結合する複数の転写因子を予測することが出来る。これはまた、それら転写因子とモチーフの組合せ(TF-motif コンビネーション)がそのセットの遺伝子を制御していることを直接的に示唆する。

私はこの方法を、生物学的現象としての重要性と利用可能なデータの存在から、出芽酵母の細胞周期に適用した。細胞周期はあらゆる生物に普遍的な細胞過程であり、出芽酵母の細胞周期に関する知識、データは比較的蓄積されている。しかしながら、多くの研究はその転写後のメカニズムに集中し、転写制御やそのメカニズムについては依然不明な点が多い。特に標準的なモデルでは幾つかの phase を制御する5つの制御因子(あるいはそのコンビネーション)しか同定されておらず、制御因子が同定されていない、あるいは良く特徴付けられていない phase が複数存在する。

まず初めは、ChIPデータからのモチーフ抽出(ステップ1)についての結果である。本方法は、従来知られていたモチーフに加え、新しいモチーフやバリエーションを予測した。例えばMcm1に対するATAATTA(後に実験的に証明)、Mth1に対するCAGCAG、Ash1に対するGCGGCA等である。さらに(個別的)タンパク−タンパク相互作用データと組み合わせることで、新しい複合体Stb1+Swi6+Swi4/Mbp1の存在を予測した(Mbp1に関しては、後に実験的に証明)。さらに、ChIPデータからの有意な高頻出モチーフが3つのタイプに分類される事を発見した。モチーフ1が転写因子1のChIPデータから抽出されたとする。一つ目は、転写因子1がモチーフ1に直接結合するdirect-binding motif、二つ目は、転写因子1が他のDNA結合転写因子と接触し、そのDNA結合転写因子がモチーフ1に結合する piggyback-binding motif、三つ目は、転写因子1がその抽出モチーフ1と同じプロモーター上にある別のモチーフに結合し、その抽出モチーフ1には別の転写因子が結合する cross-binding motif である。最後の二つは転写因子1がモチーフ1に直接結合しない、indirect-binding motif である。

次は、細胞周期の各 phase に特異的な TF-motif コンビネーションについての結果である。本方法は、従来知られていた制御因子(のコンビネーション)に加え、新しいコンビネーションを発見した。これらをまとめ、私は酵母細胞周期における新しい転写制御モデルを提案した。従来のモデルは以下であった。G1 phase に{Mbp1,Swi6}(Mbp1とSwi6から成るコンビネーション)、{Swi4, Swi6}がACGCGT, CRCGAAA にそれぞれ結合し、遺伝子を制御する。G2/M phase に Fkh1/2とMcm1が、GTAAACAAとECBモチーフに結合し、Ndd1と協同して遺伝子を制御する。M/G1 phase にMcm1とSwi5/Ace2がECBモチーフとRRCCAGCRに結合して、遺伝子を制御する。新たなモデルでは、これらに、今回予測されたコンビネーションによる制御が加わった。例えば、G1 phase に{Stb1, Swi6, Mbp1/Swi4}コンビネーションがACGCGAに結合して遺伝子を制御する。Ste12, {Swi6, Mbp1/Swi4}がTGAAAC, CGCGTCに結合して遺伝子を制御する。S phase にMet4, {Swi4, Swi6}, Hir1/2がMETモチーフ, CGCGAAA, CCR配列に結合してヒストン遺伝子を制御する、など。この新しいモデルにおいては、ほとんどの転写因子がコンビネーションの要素となっていた。これは酵母細胞周期における転写制御の描像を、従来の単一転写因子による制御から、複数の転写因子による制御へと一変した。

この結果からさらに考察を進め、酵母細胞周期におけるTF-motif コンビネーションが3つの制御モードに分類できる事を発見した。一つ目は waiting-activating system であり、これは転写因子(の組合せ)が何らかのシグナルを受け取るまでプロモーター上に結合して待機し、受け取ると転写を活性化するというシステムである。二つ目は joint-process combination であり、2つ、あるいは複数の細胞過程(例えば、M/G1 phase 制御とフェロモン応答など)をつなぐ組合せである。3つ目は joint-phase combination であり、ある phase で主要な役割を果たす転写因子と、次の phase で主要な役割を果たす転写因子の組合せである。最後のモードは特に興味深い。というのは、まるで細胞周期における遺伝子制御を回し続ける為に、ある phase の転写因子が、中間の phase で、次の phase の転写因子に遺伝子制御をリレーしているかの様に見えるからである。

本研究において、今回開発した新しい方法が、従来方法が抱えていた二つの欠点を克服できることを実証した。それのみならず、今後実験によって詳しく調査されるべき、生物学的に興味深い幾つかの仮説が提案された。しかしながら本方法で解明できるのは転写因子と結合モチーフの組み合わせ、それらのターゲット遺伝子だけであり、これは完全な転写制御ネットワークの一部である。シグナル伝達経路、リガンド−レセプター相互作用まで含めた完全な転写制御ネットワークを解明するためには、今後、本研究を土台に、大規模タンパク−タンパク相互作用データ、ゲノム・スケールのノックアウトデータといった様々なゲノムデータを適切に統合化して行く必要があるだろう。

審査要旨 要旨を表示する

真核生物の遺伝子発現は、転写因子とプロモータ上に存在する転写因子結合モチーフとの組み合わせによって制御されており、これらさまざまな組み合わせが複雑な生命現象を生み出す第一歩であると考えられている。したがって、転写因子とその結合モチーフとの組み合わせによる転写制御の機構を解明することは、真核生物における遺伝子発現とそれに関わる生命現象を理解する上で重要である。しかしながら、ゲノムレベルでこの組み合わせ的転写制御を予測する計算機的手法は存在していなかった。本論文では、DNAマイクロアレイデータ、ChIP (Chromatin ImmunoPrecipitation) マイクロアレイデータ、全プロモータ配列データなどの複数のゲノム・データの統合的処理により、上記の組み合わせ的転写制御を予測する計算機的手法を開発し、これを酵母細胞周期に関わる遺伝子発現制御の解析に適用している。

本論文は、第1章序論、第2章方法、第3章結果、第4章考察の4章より成り、第1章序論では、転写制御研究に用いられるDNAマイクロアレイなどのゲノム・テクノロジー、DNAマイクロアレイ解析のための計算機的手法、最近のChIPアレイデータの出現が紹介されている。従来の計算機的手法では、DNAマイクロアレイデータから得られる遺伝子のmRNA発現パターンの類似性に従って遺伝子をグループ分けし、分けられた遺伝子群の上流プロモータ配列の中から、配列上統計的有意に高頻出している短いDNAパターンを抽出して、それが転写因子結合モチーフであると推測していた。しかし、この方法には以下の2つの問題点がある。(1)たとえ有意なDNAパターンを抽出したとしても、そのモチーフにどの転写因子が結合するのかは分からない。(2) 真核生物では転写因子と結合モチーフによる組み合わせ的転写制御が重要であると考えられるが、従来の方法では一種類のDNAパターンしか探索していない。

第2章方法においては、データの前処理、高頻出単一モチーフ探索、高頻出モチーフ組み合わせの探索、発現パターンのコヘーレンスの調査などに関する方法が述べられている。上記(1)の問題点を克服するために、どのプロモータが特定の転写因子と結合しているのかをゲノムレベルで調べることができる、ChIPマイクロアレイデータが用いられている。ChIPマイクロアレイデータ自体はプロモータ内のどのDNA配列に転写因子が結合するかに関する情報を直接与えるわけではないが、本論文の手法を用いると、プロモータ・セットに対して統計的有意に高頻出するDNA配列を探索することによって、転写因子が結合する短いDNA配列を推測することができる。

さらに上記(2)の問題点を克服するため、与えられた遺伝子セットに対して、従来法のような一種類のモチーフ探索ではなく、モチーフ組み合わせの探索を行っている。すなわち、まず、ChIPデータを利用して得られたモチーフのあらゆる組合せに対し、統計的有意に現れる共頻出モチーフを選別する。次に、これら共頻出モチーフを持つ下流遺伝子の発現パターンをDNAマイクロアレイデータから得て、発現パターンがコヘーレントであるモチーフ組み合わせだけを選別することにより、転写因子と結合モチーフによる組み合わせ的転写制御に関する知見を得ることができる。

第3章結果の部分では、まず、ChIPマイクロアレイデータを利用したモチーフ抽出の結果が述べられている。ここでは従来知られていたモチーフに加え、多くの新しい転写因子結合モチーフが予測されている。例えば、Mth1転写因子に対するCAGCAGモチーフ、Ash1転写因子に対するGCGGCA等である。これらのうちMcm1転写因子に対するATAATTAに関しては、予測と合う実験結果が後に報告され、本方法の有効性が実証されている。

結果の後半部分では、酵母細胞周期の各相 (Phase) に特異的な転写因子と結合モチーフの組み合わせが予測されている。ここでは、従来知られていた組み合わせに加え、多くの新しい組み合わせが予測されている。例えばG1相におけるSte12、Swi6、Swi4転写因子と、TGAAAC、CGCGTCモチーフの組み合わせ等である。この様に転写因子と結合モチーフの組み合わせを網羅的に予測することは、従来の方法ではなし得なかったことである。

第4章考察においては、上記の結果に基づき、酵母細胞周期の組み合わせ的転写制御において見出される、幾つかの特徴が論じられている。これらの特徴のうち、接合相組み合わせ (joint-phase combination) という特徴は、一つの相で主要な役割を果たす転写因子と、次の相で主要な役割を果たす転写因子が、その中間の相で組合せを取っているものであり、一細胞周期に渡って三つの組合せが存在し、全体として環を形成している。本研究の予測結果が今まで欠けていた組み合せ部分を埋めたために、この様な環の存在が初めて明らかになったのである。

以上のように、本研究によって初めて、転写因子とその結合モチーフの組み合わせをゲノムレベルで推測する方法が確立された。また、数多くの新しいモチーフや、転写因子と結合モチーフの組み合わせが明らかになった。これらの成果は、生物物理学の一分野、すなわち、計算機的手法による全遺伝子規模の生命現象解析の分野において、多大の寄与をなすものである。

なお、本論文はミカエル・ザン (Michael Zhang) 氏との共同研究であるが、論文提出者が主体となって研究を行ったものであり、審査員一同は同提出者が博士(理学)の学位を授与するのに十分であると判断した。

UTokyo Repositoryリンク