学位論文要旨



No 122184
著者(漢字) 新井田,厚司
著者(英字)
著者(カナ) ニイダ,アツシ
標題(和) 乳癌細胞における転写制御プログラムの統合的バイオインフォマティクスによる解析
標題(洋) Integrative bioinformatics analysis of transcriptional regulatory programs in breast cancer cells
報告番号 122184
報告番号 甲22184
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第5047号
研究科 理学系研究科
専攻 生物化学専攻
論文審査委員 主査: 東京大学 教授 黒田,真也
 東京大学 教授 秋山,徹
 東京大学 教授 油谷,浩幸
 東京大学 教授 山本,雅
 東京大学 教授 多羽田,哲也
内容要旨 要旨を表示する

 転写プログラムの異常が癌の発生・進行に重要というのは周知の事実であり、これまでの癌研究の歴史の中で、様々な転写因子が原癌遺伝子及び癌抑制遺伝子として同定されてきた。また近年、マイクロアレイ技術による網羅的発現解析によりスクリプトームが細胞の癌化の過程で劇的に変化し、異なる癌のタイプで大きく異なることが明らかにされている。

 様々な種類の癌の中でも、特に乳癌についてはマイクロアレイ技術による解析が広汎に行われている。乳癌は組織学的にも、予後、治療に対する反応性においても多様で、マイクロアレイを用いた発現解析は、このような表現型の多様性の下に潜む、トランスクリプトームの多様性を明らかにしてきた。しかしながらマイクロアレイにより得られた膨大なトランスクリプトームに関する知識と比べると、トランスクリプトームの多様性、更には表現型の多様性を生み出す遺伝子制御の機構については、得られている知識は極わずかである。またこれまで、悪性度に関連する転写プログラムについてはまだほとんど解析はされてはおらず未知のままである。

 転写制御プログラムを解明するためには、制御配列情報と網羅的発現プロファイルを統合する計算的アプローチが必須である。これまでに多くのアプローチが開発され、酵母のような下等生物の系に対しての適用はかなりの成功を収めている。しかしヒトのような高等生物のもつ複雑な遺伝子制御システムに対する適用はまだ萌芽的様態にある。この学位論文は乳癌に統合的バイオインフォマティクスによる解析を適用し乳癌の悪性度に関連するシス制御モチーフの存在を示すものである。

 癌細胞における転写制御プログラムを解明するため、本研究ではBayesian networkをもちいて制御配列情報と網羅的発現プロファイルデータを統合し、発現プロファイルデータに付随する表現型情報に相関するシス制御モチーフを探索するための方法を確立した。まず始めに個々の遺伝子の発現量と表現型の相関を計算しさらにその値を"メタ発現値(meta expression value)"として相関するようなシス制御モチーフをBayesian networkにより探索した。

 まず始めに制御配列、制御モチーフ、発現値データの三つの統合すべきデータを用意した。制御配列として、は転写開始点の上流500bpから下流100bpのコアプロモーター配列を用いた。シス制御モチーフとしては二種類のPWMのデータセットを用意した。既知の転写因子結合モチーフはTRANSFAC及びJASPARデータベースから手に入れた。更に、未知の制御モチーフを探索するためにab initioモチーフ発見プログラム(ab initio motif discovery program)の一つDMEを用いて"メタ発現値"の両端に位置する遺伝子の制御配列から頻出モチーフを抽出した。これらのモチーフ群の冗長性をクラスタリングにより取り除いたあと各遺伝子の制御配列に対しそれぞれのPWMスコアを計算し、そのスコアを複数の閾値により二値化し、sequence feature tableを作成した。つまりここでsequence featureはあるPWMスコアの閾値でのモチーフの有無を意味し、sequence feature tableは行に各遺伝子、列に各sequence featureを割り当てられた、二値行列となる。

 発現値のデータとしては、マイクロアレイ実験により得られた網羅的発現プロファイルデータを用意した。それぞれのデータセットは数千の遺伝子の複数のサンプルでの発現値の情報をよびサンプルに付随する表現型の情報を含む( 例えばhistological gradeや予後等の癌の悪性度に関する情報)。本研究においては生の発現値ではなく発現量と表現型の相関を計算し"メタ発現値(meta expression value)"とした。つまり発現値のデータはそれぞれの遺伝子の"メタ発現値"を各要素としてもつ1次元のベクトルとなる。発現値のデータはtraining dataとtest dataに3対1の比で分け、training dataに含まれる情報のみをDMEを用いた新規モチーフサーチを含める一連のモチーフ探索解析に用い、test dataを用いてその結果の評価を行った。

 発現値に関連するモチーフの探索はBayesian Networkの構造学習を利用して行った。本研究の方法ではsequence feature が遺伝子発現を制御する一層のネットワーク構造を仮定する。 この方法は酵母の系においてシス制御モチーフの組み合わせから遺伝子発現パターンの予測に成功した先行研究に基づいたものである。このアプローチのメリットはPMWスコアの閾値等のsequence featureに関する柔軟な条件や、高等真核生物において更に重要な働きをしているものと思われるsequence feature間の相互作用を取り入れられることである。酵母の系の先行研究においては本質的に連続値であるはずの発現値を発現クラスターの帰属を表す二値のデータに離散化し解析を行った。しかしながらこのような離散化は情報の欠損につながり、また、解析結果は離散化の際の閾値の選択に依存する可能性が報告されている。 この問題を解決すべく本研究では新しい評価関数を導入して連続値のデータをそのまま扱えるようにした。この評価関数はあるデータが与えられた条件下で連続値の値がある組み合わせの二値のデータに依存するモデルの確率を表す。sequence feature tableと発現値のデータに対して、この評価関数を最大化するようなsequence featureの組み合わせをgreedy searchにより探索した。まず発現値を制御するsequence featureのないモデルからスタートして、評価関数をもっとも増やすようなsequence featureを一つずつ加えることを繰り返した。

 はじめに、この方法の実用性を確かめるためにいくつかのヒト細胞の発現プロファイルデータの解析を行った。肝細胞特異的発現においてはHNF1及びHNF4の結合モチーフ、骨格筋細胞特異的発現においてはMEF2の結合モチーフ、HUVECにおけるTNFαによる発現誘導にはNFκΒの結合モチーフが相関していることが示され、既知の報告との一致が見られることからこの方法の実用性が示された。

 次に乳癌の組織学的多様性を生み出す転写プログラムに注目し、histological gradeに関連付けられるシス制御モチーフの探索を行った。Histological gradeは細胞の分化や増殖能に関する指標を統合したスコアで乳癌の悪性度を測る際に使われる。 発現プロファイルデータ中の全ての遺伝子についてG1(高分化型、67サンプル)とG3(低分化型, 高増殖性、54サンプル)の間の発現量の違いをt統計量をもちいて計算し、Bayesian Networkを用いてその値に相関するシス制御モチーフを解析した。30個のbootstrap sampleを用いた再現性の確認と単一のsequence feature及びそのペアに対する順位和検定の結果より、ELK1、 E2F1、 NRF1 およびNFYの結合モチーフが有意なsequence featureだとわかった。これら4つの組み合わせに対するP値は1.33×10-15と低く有意な結果であった。また実際の依存関係の解析によりこれらのsequence featureの存在がG3サンプル群での遺伝子のupregulationに正に相関していることがわかった。

 最後に、より直接的に癌の悪性度を反映している指標としての予後に注目して解析を行った。それぞれの遺伝子に対して生存時間との相関をCox回帰モデルを用いて計算しその値に相関しているようなシス制御モチーフを探索した。解析の結果histological grade と同様、ELK1、 E2F1、 NRF1 およびNFYの結合モチーフが7.17×10-12という有意なP値で予後と相関していることが示された。これらの結果を全て考慮に入れるとELK1、 E2F1、 NRF1 およびNFYの結合モチーフが主要な乳癌の悪性度と関連するシス制御モチーフであると考えられる。

 ELK1はETS転写因子ファミリーの一員として知られている。ETSファミリーの転写因子は中央のコア配列がGGA[A/T]からなる似た様なモチーフに結合するので、ELK1結合モチーフも他のETSファミリーのメンバーにも結合すると思われる。ETSファミリー遺伝子の多くがRAS-MAPKシグナル伝達経路により制御される転写因子であり、ETS遺伝子の制御異常は細胞の悪性化、腫瘍化を惹起する。いくつかのETS遺伝子は白血病及びEwing腫瘍において染色体転座によりchimeric oncoproteinを形成していることが報告されており、ETS遺伝子の異常発現はその他様々な悪性腫瘍について観察されている。E2FファミリーはDPタンパク質とヘテロ二量体を形成し、ファミリー間で共通の結合配列を認識するものと考えられている。E2Fファミリーは細胞周期のmaster regulatorとして知られ、G3腫瘍における遺伝子のupregulationとの関連は、histological gradeの基準に分裂指数が含まれG3腫瘍が高増殖性と定義されている事実と一致する。NRF1は核のゲノムにコードされるミトコンドリア遺伝子を発現誘導しミトコンドリアの呼吸能力(respiratory capacity)を上昇させることが知られている。癌細胞におけるNRF1の機能は報告されていないが、NRF結合モチーフとの相関は悪性腫瘍における代謝活性化を反映している可能性がある。

 以上、本研究により、閾値パラメーターに依存しないBayesian Networkによるシス制御配列と発現値データの統合解析方法を確立し、この方法を用いて乳癌細胞の悪性化に関連するシス制御モチーフの存在を示した。今後、本研究で得られた知見、方法を基礎として、上記で述べたような様々なタイプのデータを統合・解析する癌細胞における遺伝子制御システムの包括的な理解に向けて研究が進むことを期待する。

審査要旨 要旨を表示する

 本論文は乳癌に統合的バイオインフォマティクスによる解析を適用し乳癌の悪性度に関連するシス制御モチーフの存在を示すものである。

 様々な種類の癌の中でも、特に乳癌についてはマイクロアレイ技術による解析が広汎に行われている。乳癌は組織学的にも、予後、治療に対する反応性においても多様で、マイクロアレイを用いた発現解析は、このような表現型の多様性の下に潜む、トランスクリプトームの多様性を明らかにしてきた。しかしながらマイクロアレイにより得られた膨大なトランスクリプトームに関する知識と比べると、トランスクリプトームの多様性、更には表現型の多様性を生み出す遺伝子制御の機構については、得られている知識はごくわずかである。またこれまで、悪性度に関連する転写プログラムについてはまだほとんど解析はされてはおらず未知のままである。転写制御プログラムを解明するためには、制御配列情報と網羅的発現プロファイルを統合する計算的アプローチが必須である。これまでに多くのアプローチが開発され、酵母のような下等生物の系に対しての適用はかなりの成功を収めている。しかしヒトのような高等生物のもつ複雑な遺伝子制御システムに対する適用はまだ萌芽的段階にある。

 癌細胞における転写制御プログラムを解明するため、本論文はBayesian networkをもちいて制御配列情報と網羅的発現プロファイルデータを統合し、発現プロファイルデータに付随する表現型情報に相関するシス制御モチーフを探索するための方法を確立した。まず始めに個々の遺伝子の発現量と表現型の相関を計算しさらにその値を"メタ発現値(meta expression value)"として相関するようなシス制御モチーフをBayesian networkにより探索した。

 はじめに、この方法の実用性を確かめるためにいくつかのヒト細胞の発現プロファイルデータの解析を行った。肝細胞特異的発現においてはHNF1及びHNF4の結合モチーフ、骨格筋細胞特異的発現においてはMEF2の結合モチーフ、HUVECにおけるTNFαによる発現誘導にはNFκBの結合モチーフが相関していることが示され、既知の報告との一致が見られることからこの方法の実用性が示された。

 次に乳癌の組織学的多様性を生み出す転写プログラムに注目し、histological gradeに関連付けられるシス制御モチーフの探索を行った。Bayesian Networkを用いて発現プロファイルデータ中の全ての遺伝子についてG1(高分化型、67サンプル)とG3(低分化型,高増殖性、54サンプル)の間の発現量の違いに相関するシス制御モチーフを探索し、ELK1、E2F1、NRF1およびNFYの結合モチーフを有意にhistological gradeに相関するsequence featureとして同定した。また実際の依存関係の解析により、これらのsequence featureの存在がG3サンプル群での遺伝子のupregulationに正に相関していることがわかった。

 最後に、より直接的に癌の悪性度を反映している指標としての予後に注目して解析を行った。それぞれの遺伝子に対して生存時間との相関をCox回帰モデルを用いて計算し、その値に相関しているようなシス制御モチーフを探索した。解析の結果histological gradeと同様、ELK1、E2F1、NRF1およびNFYの結合モチーフが予後と相関していることが示された。これらの結果を全て考慮に入れるとELK1、E2F1、NRF1およびNFYの結合モチーフが主要な乳癌の悪性度と関連するシス制御モチーフであると考えられる。

 本論文は、Bayesian Networkによるシス制御配列と発現値データの統合解析方法を確立し、この方法を用いてはじめて乳癌細胞の悪性化に関連するシス制御モチーフの存在を示した。本論文の一部は広子貴俊、笠井真菜、古川洋一、中村祐輔、鈴木穣、菅野純夫、秋山徹との共同研究であるが、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与が十分であると判断する。

 従って、博士(理学)の学位を授与できると認める。

UTokyo Repositoryリンク