学位論文要旨



No 125357
著者(漢字) バンデンボン,アレクシス ロベルト
著者(英字) VANDENBON,ALEXIS
著者(カナ) バンデンボン,アレクシス ロベルト
標題(和) 組織特異的発現のためのプロモーター構造パターンのモデル化
標題(洋) Modeling Architectural Patterns in Promoter Sequences for Tissue-specific Expression Prediction
報告番号 125357
報告番号 甲25357
学位授与日 2009.09.28
学位種別 課程博士
学位種類 博士(生命科学)
学位記番号 博創域第519号
研究科 新領域創成科学研究科
専攻 メディカルゲノム専攻
論文審査委員 主査: 東京大学 教授 中井,謙太
 東京大学 教授 宮野,悟
 東京大学 教授 菅野,純夫
 東京大学 教授 小林,一三
 東京大学 准教授 石谷,隆一郎
内容要旨 要旨を表示する

Introduction

In eukaryotes, the activity of genes and their products is regulated on many levels. Regulation of transcription is the first step in the cascade of regulation, and as such it is of major importance in determining when, where (e.g., in which tissues), and under what conditions a gene is expressed. Since this process is controlled by transcription factor (TF) binding motifs in regulatory sequences, we can make the assumption that regulatory regions containing similar sets of motifs are bound by similar sets of TFs, and thus drive similar expression profiles.

Here I present three studies on the analysis and modeling of the architecture of regions regulating the initiation of transcription. In these three studies, models are presented that aim at capturing some common structural features from promoter sequences that drive similar expression profiles. Subsequently, the trained models are used for finding other promoter sequences that share similar structural features and result in similar expression profiles.

Results and Discussion

1.A Markov chain-based promoter structure model

In a first study, a Markov chain-based promoter structure model was introduced. The promoter sequences are divided into two regions, reflecting the positional preferences of regulatory sites with regard to the translation or transcription start site (TSS). Next, a first order Markov chain is constructed for each region, capturing order and orientation of the sites in each region. After training, the model is used to score a genomic set of promoter sequences. High-scoring promoters are assumed to have a structure similar to the input sequences, and are thus expected to drive similar expression patterns. Figure 1 shows a visual representation of the scoring process.

First, we trained our model on a set of promoters driving expression in pharyngeal muscle cells in Caenorhabditis elegans. Using available annotation data we confirmed that high-scoring non-input promoters were enriched for promoters driving expression in pharyngeal muscle cells (P-value = 0.0025) and in muscle tissue in general (P-value = 0.0072), illustrating the validity of the model. Second, we trained the model on a set of muscle-specific promoters in the sea squirt Ciona intestinalis. For four high-scoring non-input genes in situ hybridization experiments were conducted, confirming expression in muscle tissue for three of them.

2.A model based on simple rules on presence and positioning of motifs

In a second study, structural rules were constructed concerning the presence of regulatory sites, their positioning relative to the TSS, and the relative positioning between pairs of sites. During training, a large number of such patterns are extracted from a set of training promoters. Subsequently, a Genetic Algorithm (GA) is used to select from this pool of patterns a small subset of highly meaningful patterns optimizing performance on a second set of training samples. This final subset of structural patterns represents our promoter structure model.

A ten-fold cross-validation approach on muscle-specific promoters from C. elegans indicated that this model is capable of finding architectural patterns characteristic of muscle-expressed promoters. On average 27.1% and 36.5% of muscle-expressed promoters scored higher than 95% and 90% of the control promoters, respectively. In the best validation run, we found that almost 50% of muscle-expressed promoters scored higher than 90% of the controls promoters. A visual representation of the six structural patterns selected in this validation run is shown in Figure 2. The selected patterns contain a wide variety of structural information, and some motifs present in the patterns show similarity to known motifs of importance in muscle-specific regulation of transcription. High-scoring non-training sequences were enriched for muscle-expressed genes, and predicted regulatory sites fitting the patterns showed a tendency to be present in experimentally verified regulatory regions (P-value = 0.0017).

3.A large-scale analysis of tissue-specific promoter structures

Finally, we applied an updated version of the rule-based model described above on 26 human and 34 mouse tissues. In this updated version, the GA does not only select a subset of structural patterns, but it also assigns a weight to each pattern, reflecting its importance. Promoter structure models were constructed for each tissue, and ten-fold cross-validation was used to evaluate the ability of each model to distinguish positive test samples from control promoter sequences. As measures for performance, the Area Under the Curve (AUC) of Receiver Operating Characteristic (ROC) curves, and the sensitivity at 90% and 95% specificity were used.

We found that the models had statistically significant performance in 35 out of 60 tissues. Models with high performance include those for tongue, (fetal) liver, kidney, and skeletal muscle. Table 1 shows an overview of the five best performing human promoter models.

Further analysis of the important structural patterns in these models revealed that many involve TFs known to be of importance in the tissues in question, such as HNF1 and HNF4 in liver promoter models, and MEF2 in skeletal muscle promoter models. In addition, we found that promoter models of a tissue in one species tend to have high performance when applied on promoter sequences of the same tissue in the other species. For example, the human kidney promoter models are able to recognize mouse kidney-specific promoter sequences, and vice versa. Finally, promoter models of related tissues, such as liver and kidney, tend to have high inter-tissue performance.

Conclusions

We introduced two approaches for modeling tissue-specific promoter architectures. Predictions of the Markov chain-based model were validated using available annotation data and experimental results. In a second approach, a GA was used to select a small set of simple rules on the presence and positioning of regulatory sites in tissue-specific promoter sequences. Both models are capable of capturing a wider variety of structural features, compared to cis-regulatory module-based models. The third study showed that such features can be used to model tissue-specific structural features on a large scale in higher eukaryotes. We believe that our approaches can be useful for finding promising candidate genes for wet-lab experiments, and for increasing our understanding of the regulation of transcription.

Figure 1. The scoring process of the Markov chain-based promoter structure model. (a): A promoter sequence to score. The squares represent predicted sites for motifs A, B and C, with '+' and '-' indicating their orientation. Here, the boundary between the proximal and distal regions is set at -500 bp. (b) and (c): The promoter model during the scoring process of the distal region and the proximal region, respectively. The states of the model are shown as circles. Each of the two regions has a 'start' and a 'stop' state, in addition to states for each motif type in both orientations. Arrows indicate transitions used during the scoring of the sequence shown in (a). Values of these transitions are captured in the Markov chains during training of the model.

Figure 2. A visual representation of the 6 selected rules in the best cross-validation run for the C. elegans muscle promoter model. For each pattern, the sequence logo of the motif(s) and the nature of the pattern are shown.)

Table 1. Overview of the five best performing human models. A description of each dataset, the number of promoter sequences it contains, the average AUC value of the ROC curves obtained form the 10 cross-validation runs, and a corrected P-value for this value is shown. Finally, the sensitivity at 90% specificity and 95% specificity is shown.

審査要旨 要旨を表示する

本論文が扱っている分野はバイオインフォマティクスと呼ばれる、ゲノム情報のコンピュータ解析である。具体的には、多細胞生物における遺伝子の組織特異的発現をコントロールする制御領域(プロモーター)がどのような原理で塩基配列上に記述されているのかという基本的な問題にアプローチしている。本論文は以下に述べるように、3部構成をとる。

第一部は、マルコフ連鎖を用いたプロモーター構造のモデリングを扱っている。組織特異的プロモーターにはしばしば頻出するシスエレメント(モチーフ)の組み合わせが存在するが、それらエレメントの一次構造上の出現順序や相対距離は一定せず、またエレメントの出現自体も完全とは言えない。このような特徴をモデル化するのに、確率的な状態遷移を扱うマルコフ連鎖を用いるのは自然である。具体例としては、線虫とカタユウレイボヤにおける筋肉特異的遺伝子のプロモーター群をそれぞれ用いた。カタユウレイボヤについては、既知プロモーターから構築したモデルをゲノム中の全予測遺伝子の上流配列に適用して、既知プロモーター以外に存在する可能性のある未知の筋肉特異的プロモーターの発見を試みた。実験的な制約の中で、4つの候補遺伝子を選び、共同研究者の in situ ハイブリダイゼーション実験によって発現を確認したところ、完全に筋肉でのみに発現が抑制されているわけではないが、3つの遺伝子については筋肉での発現が確認できた。この実験による確認を含め、本研究は兵庫県立大学(当時)の日下部博士らのグループとの共同研究であるが、論文の主要な内容は論文提出者によるものであり、論文提出者の寄与は十分であると判断する。

第二部は、第一部とは別の手法、すなわち単純なルールの組み合わせによって、プロモーター構造の特徴を記述する試みについて述べている。第一部で導入したマルコフ連鎖によるモデル化は数学的に単純で見通しがよいことが魅力であるが、プロモーターの配列上の特徴を記述する能力にはやはり限界がある。また、従来様々な研究者がいわゆるシス制御モジュールの記述を試みてきたが、それらの多くは厳しい制約条件のもとに行われている。ここでは単純な配列モチーフの存在の有無、モチーフ対の相対距離範囲、翻訳開始点からのモチーフの距離範囲などをパラメーターとした様々なモチーフを生成し、それらの組み合わせを遺伝的アルゴリズムによって最適化している。具体例として、第一部でも用いた線虫の筋肉特異的発現遺伝子のプロモーターを用い、それらを少数のルールの組み合わせで記述した。得られたルールセットをゲノム中の全遺伝子上流配列に適用すると、高いスコアをもち、学習データに含まれていない遺伝子の多くは、公共のマイクロアレイデータによって、筋肉での発現が認められることが確認された。

第三部では、第二部で開発したルールベースのプロモーターモデル化技法をヒトとマウスの様々な組織特異的プロモーター群に適用し、組織によってモデル化のし易さにどんな違いがあるのかを検討している。まず一般公開されているマイクロアレイデータを用いて、ヒトでは26 組織、マウスでは34 組織に対する特異的発現遺伝子群を定義し、それらについて各々モデル化を行ったところ、60 中35 の組織については統計的に有意に識別力のあるモデルを構築できたとしている。比較的モデル化が容易だった組織は、肝臓、骨格筋、腎臓、舌などであった。これらについて得られたモデルは、ヒトで得たモデルがマウスの同じ組織で有用であるなどの意味で、進化的に保存されていた。また、全部のモデルを網羅的に全組織のプロモーター領域に適用してみたところ、比較的類縁性のある他の組織においても、モデルの有効性が確認された。これらの結果は、少なくとも半数以上の組織については、妥当なモデル化が行えていることを強く示唆しているのと同時に、組織特異的プロモーターのモデル化には、組織によってかなり難易度の差があることを意味しているものと結論された。

これらの研究を通して、多細胞生物における転写制御領域(プロモーター領域)の基本的構造を網羅的かつ理論的に明らかにする研究の先鞭がつけられたと言える。審査委員の間でも、論文の体裁を修正する要求がでた以外には、めだった批判もでず、博士課程の間の研究として、十分な成果をあげているという点で意見が一致した。

従って、博士(生命科学)の学位を授与できると認める。

UTokyo Repositoryリンク