学位論文要旨



No 125045
著者(漢字) 西田,圭伸
著者(英字)
著者(カナ) ニシダ,ケイシン
標題(和) 転写因子結合部位モチーフにおける最適な疑似度数とその検出限界
標題(洋)
報告番号 125045
報告番号 甲25045
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(生命科学)
学位記番号 博創域第463号
研究科 新領域創成科学研究科
専攻 メディカルゲノム専攻
論文審査委員 主査: 東京大学 教授 中井,謙太
 東京大学 教授 小林,一三
 東京大学 教授 菅野,純夫
 東京大学 准教授 中川,一路
 東京大学 講師 渋谷,哲朗
内容要旨 要旨を表示する

序論

転写因子は特定のゲノム配列に結合することで,遺伝子の転写制御をすることが知られている.この転写因子結合配列は,完全に同一の配列ではなく,ある程度の塩基ゆらぎをもって観測されることがほとんどである.そのため,転写因子結合部位は,モチーフと言われる配列に共通するパターンとして取り扱われる.そして,パターンのような規則性で表現することで,配列やモチーフ自体に確率・統計的な指標を与えることができる.しかし,モチーフ表現を統計的な指標として使うには,実用上問題が生じる場合がある.その中で,本論文は2つの問題に着目し,研究を行った.1つ目は,「最適な疑似度数の探索」である.これは,転写因子結合部位配列からモチーフ表現を作る際に生じる,ゼロ頻度問題を回避するために使われる疑似度数に焦点を当てた研究である.2つ目は,「モチーフ発見ソフトウェアの検出限界」である.これは,複数の配列から共通する転写因子結合部位配列を見つけるモチーフ発見ソフトウェアが,既知の転写因子結合モチーフのうち,どこまでが検出可能なのだろうかという疑問に答えるための研究である.

最適な疑似度数の探索

モチーフ表現として最もよく使われているのは,行列モデルを用いたものである.Position Frequency Matrix(PFM)は,転写因子結合部位配列の各位置での塩基の出現頻度を表したもので,行に塩基の種類,列に配列の位置を示す行列の形となっており,各位置に,どれだけ塩基が出現したかを表現することができる.そして,Position Probability Matrix(PPM)は,PFMの各位置での塩基の出現頻度を,出現確率に変換したものである.このPPMは,転写因子結合部位に確率的な評価基準を与えるための基本となる.PPMからさらに別の指標に変換したモチーフ表現の1つとして,Position Weight Matrix(PWM)が挙げられる.これは,PPMの各要素を配列のモチーフ以外の部分(バックグラウンド)での塩基の出現確率で割り,各要素をさらに対数変換して作られる.つまり,PWMの各要素の値はバックグラウンドに比べて,どれだけ高い比でモチーフの塩基が現れたかを対数で表すのである.しかし,PFMが少ない配列から生成された場合には,多くのゼロの要素を含むことがある.その場合,ゼロの要素は対数変換の際に負の無限大になるため,そのゼロとなる塩基を持つ配列は予測から外れることになる.しかし,真のモチーフでは現れるはずなのに,少ないサンプルのためにゼロの観測となった場合,このゼロは予測に大きな影響を与える.この問題を避けるため,疑似度数と言われる値を足す手法が用いられる.この疑似度数は経験的に用いられており,0.01や4などの定数,元の配列数の平方根など多岐にわたっている.そこで本研究は,JASPARに登録されているモチーフを,真のモチーフの出現確率とし,その確率から複数の転写因子結合配列を生成する.そこで,疑似度数が足された疑似度数と元のモチーフの類似度を判断基準とし,疑似度数の体系的な評価を行った.また,その結果から最適な疑似度数の提唱を行った.

方法

JASPARに登録されているPFMをPPMに変換し,各塩基の出現確率を利用して新たな配列を生成する.その生成された配列を集めてPFMを作り,0.01から10までのさまざまな疑似度数を足す.生成されたPPMと元のPPMを比較し,疑似度数の効果を評価関数にて評価する(図1).評価にはユークリッド距離や順位相関係数など7種類の方法を試した.この手順を,ひとつの条件につき100回の繰り返しを行い,その平均値を評価値として用いる.

結果

図2は,AGL3 (MA0001)の評価法をPPMの要素に対するユークリッド距離を求めた場合の結果である.横軸には疑似度数,縦軸には評価値が表してある.そして,最低値が0になるように値の差分のみを表示した.生成した配列数は図の右に示してある.ここから,元のPPMと生成PPMの距離が縮まる,最適な疑似度数があることがわかる.また,生成配列数が違っても極小となる位置が同じであることから,最適な疑似度数は生成配列のサイズに依らないこともわかる.モチーフの最適疑似度数とモチーフの位置ごとの平均エントロピーの関係を図3に示す.ここから,モチーフの最適な疑似度数と平均エントロピーには強い相関関係があることがわかる.

考察

モチーフ生成による解析の結果,最適な疑似度数はモチーフのエントロピーによって決まることがわかった.しかし,実用上は生成されたモチーフのみ知ることができ,元のモチーフを知ることはできない.そこで次の点に着目して,最適な疑似度数を提唱することにする.まず,JASPARのモチーフの結果は,1近辺に最適な疑似度数が集中することと(図3),小さい疑似度数を加えた場合は,大きなものを加えた場合よりも好ましい結果であることから(図2),0.8をJASPARの転写因子結合モチーフに対する推奨疑似度数とする.

転写因子結合モチーフの検出限界の探索

転写因子の結合モチーフを新たに見つけ出すには,実験的手法と計算機的手法の両方が必要になる場合がある.なぜなら,実験的手法によっては,転写因子結合部位を含む近傍のゲノム配列までしか絞り込むことができないためである.この問題は,各配列に頻出する類似度の高い配列を探し出す問題と捉えることができる.しかしながら,統計的に最適なモチーフは現実的な計算時間で検出することができない.つまり,現在利用できるモチーフ発見ソフトウェアは,最適解である保証が無い答えを返すのである.そのため,多種多様なソフトウェアが開発され,アルゴリズムの違いなどからそれぞれ異なる性能を発揮している.しかし,どのような入力配列があればどの程度の有意なモチーフを探す事ができるのか,といった性能の限界についてはよくわかっていない.そこで本研究は,モチーフの検出限界を探索することを目的とし,JASPARのモチーフを様々なバックグラウンド配列に埋め込むことで,性能評価用のデータセットを作成した.このデータセットを用いることでモチーフ探索ソフトウェアの検出限界を知ることができる.またこの結果は,実験手法での探索範囲の絞り込みのための,重要なガイドラインになると考えている.

方法

バックグラウンド配列として,長さ1600,800,400,200,100bpの配列を,それぞれ128,64,32,16,8本用意する.配列の生成方法としては,ヒトの遺伝子の上流配列1600bpを無作為に選択したものを用いる.1600bp以下の配列長は無作為に切り出した配列を用いる.また,繰り返し実験のため,これらの条件の全組み合わせを100セット用意する.人工の転写因子結合配列は,JASPARのPFMをPPMに変換し,その塩基の出現確率を用いて生成する.そして,それぞれの配列のデータセットの配列数の3/4に,生成した転写因子結合配列を埋め込む.モチーフ発見ソフトウェアは,Gibbs Sampler,MEME,Weeder,Seederを用いる.予測した部分か埋め込んだ配列の,どちらか短い方の長さの2/3が重なっていた場合は,その予測が正しいものと判断する.Gibbs Sampler,Weeder,Seederは,実行に必須なパラメータとして予測するモチーフの長さが必要になる.Gibbs SamplerとSeederは,6,8,10,12塩基長の4種類を設定し,Weederは6,8,10塩基長の3種類を設定する.その中で,最もよい性能を示したものをそのソフトウェアの結果とする.

結果

まず,5つのモチーフと,バックグラウンド配列の全部の条件の結果から(図4),Weederが比較的安定してよい結果となることがわかった.Weeder以外のソフトウェアがよりよい精度となる場合でも,Weederが僅差の精度を示すので,Weederを用いることで検出限界を定めることができると考えられる.そこで,Weederを用いて全モチーフの探索を行った.例として,モチーフの検出感度(Sensitivity)が0.5,PPV(Positive Predictive Value)が0.4をこえるものを,予測可能なモチーフとした場合の結果を表1に示した.

考察

表1に示すように,よい条件でも既存のモチーフの50%程度しか発見することができないことがわかった.また,入力の配列の数が10 以下の少ない場合や,100以上の多い場合には,予測できるモチーフが減ってしまうことがわかる.そこで,効率的にモチーフを探索するために,入力配列数をコントロールがすることが有効であること考えられる.

図1 手順の概要

図2 疑似度数と距離の関係

図3 最適な疑似度数とエントロピー

図4 ソフトウェアごとの予測精度

表1

審査要旨 要旨を表示する

西田圭伸氏の博士論文は、転写制御領域のコンピュータ解析を行う上で基本となるシスエレメントのモチーフ表現に関する二つの問題を扱っている。そこで、審査会でもそれぞれの部分について質疑応答が行われた。

まず、前半の内容である、位置特異的重み行列における最適疑似度数に関する研究については、この分野における長年の未解決問題を実用的な形で解いたということについては一定の評価がなされた。これはあくまでシミュレーション結果であり、いわゆる証明ではない点が指摘されたが、これに関して、米国のグループが独立に行った数学的な研究でも、いわゆる完全な証明がなされたわけではなく、サンプル数が非常に大きくなったときの漸近的なふるまいを論じただけであり、長年未解決であったことをみても、そんなに簡単に証明できるものではないという議論があった。また、疑似度数をモチーフに一つ決めるのではなく、各位置で最適化した値を使ったらどうかという質問がでたが、これについては実際に試してみたが、改善は限定的であったことが報告された。

他方、後半のモチーフ発見プログラムの性能評価についても、活発な質疑応答がなされた。たとえば、検出すべきモチーフを埋め込んだバックグラウンド配列について、実際のヒトゲノムの配列を用いているので、Sp1結合配列など、ヒトプロモーター上に頻出するモチーフが代わりに検出されてしまう危険性が指摘された。これに対しては、多くのモチーフを試し、それぞれのモチーフについても100回の繰り返しを行うため、そのような効果によって結果が大きくゆがめられる可能性は低いものと思われるが、配列中の既知モチーフをあらかじめマスクするなどの方法も検討に値することが確認された。また、全般に有名モチーフ検出プログラムの性能が悪過ぎるのではないかという懸念がだされた。この結果が正しいのなら、モチーフ検出プログラムはChIP-seq実験等、比較的容易な問題にしか使えないのではないかという感想もでた。これについては、今回の結果の吟味がまだ十分でないので、あらためてチェックするが、従来の研究結果などとも考え合わせると、それほど信じ難い結果とも言えないとの意見もだされた。

最後に、前半部の研究は、すでに国際学術誌に論文が採択済みでもある(本論文は、Martin Frithと中井謙太との共著になっているが、申請者である西田氏の貢献が十分である旨、共著者の同意を得ている)。よって、本論文は博士の学位請求論文として合格と認められる。

UTokyo Repositoryリンク