学位論文要旨



No 128736
著者(漢字) 芦田,広樹
著者(英字)
著者(カナ) アシダ,ヒロキ
標題(和) ゲノムランドスケープの比較解析
標題(洋) Comparative Analysis of Genomic Landscapes
報告番号 128736
報告番号 甲28736
学位授与日 2012.09.27
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第839号
研究科 新領域創成科学研究科
専攻 情報生命科学専攻
論文審査委員 主査: 東京大学 教授 森下,真一
 東京大学 教授 服部,正平
 東京大学 教授 浅井,潔
 東京大学 教授 伊藤,隆司
 東京大学 准教授 有田,正規
 東京大学 講師 笠原,雅弘
内容要旨 要旨を表示する

Motivation

To date, the number of sequenced genomes of non-human species is more than 3,800 and the cost per nucleotide to sequence DNA has dropped 100,000-fold between 1999 and 2009. The growth rate of our sequencing capabilities has far exceeded that of Moore's Law. The drastic acceleration in biological enquiry enabled by the current high-throughput technology is just beginning. At the current rate of technological progress, DNA sequencing is soon likely to become a commodity for all the studies in biology.

However, what is rapidly growing in even faster rate is production of comprehensive catalogues of genetic features that are mapped on to the primary sequence. For instance, the number of genome annotation tracks in the UCSC genome browser has increased exponentially over the past few years and now tracks for human genome hg19 alone exceeds 150, with around 1000 data tables. The types of data include histone modifications, SNPs, structural variation sites, CpG methylation, splicing sites, non-coding RNA and many more. The next important step is to determine how these genomic landscapes are associated with each other, both globally and locally, and to start piecing together the puzzle in order to grasp the whole picture of the genome system. Our goal in this thesis is to develop a method for comparing genomic landscapes according to their shapes and extracting regions that show high correlations.

Method

Although new data continue to arrive at a prodigious rate and thorough investigation of each measurement is done individually, not much work has been done to provide an overview and bring together the different views of the landscapes. The general idea of our approach is to align genomic landscape data (collections of real-valued observations made at sequential positions along a chromosome) based on their topology. This will allow us to detect regions with similar shapes, which can lead to finding functionally interrelated regions. We overcame the size problem for genome-wide data by converting the data into series of symbols and then carrying out sequence alignment. We also decomposed the oscillation of the landscape data into different frequency bands before analysis, since the real genomic landscape is a mixture of embedded and confounded biological processes working at different scales of the cell nucleus. Our approach has five phases: (i) Wavelet transformation, (ii) Dimensionality (data) reduction, (iii) Symbolic representation, (iv) Local alignment and (v) Filtering. The dimensionality reduction feature of our process makes approximating large datasets like genomic landscape feasible.

Result

To verify the usefulness and generality of our method, we applied our approach to well investigated landscapes from the human genome, including several histone modifications. Furthermore, by applying our method, we made the novel biological finding that DNA replication timing and the density of Alu insertion are highly correlated genome-wide.

Conclusion

We have developed an ultra fast method for comparing the genome-wide data of genomic landscapes. To our knowledge, this is the first method to align the landscapes according to their topology at multiple resolutions. Our approach is robust to position distortion and copes with the high dimensionality of genomic data. We have processed vast numbers of human genomic landscape data in order to find links between previously untested factors. The information discovered through our approach should facilitate further exploration of genomic landscapes and how they affect each other within a living cell nucleus.

審査要旨 要旨を表示する

本論文は、ゲノム上に注釈として得られる様々な数値データの波形(ゲノムランドスケープ)を比較するための新たな手法を提案するとともに、その手法を用いた解析について報告し、手法の有用性を論じたものである。

ゲノム配列情報解析においては、高速な比較解析手法が既に普及している。しかしながら、波形データを網羅的に比較することは、従来の技術では膨大な計算コストを必要としていた。また、ゲノムランドスケープは、細胞内の多様なスケールの現象を反映しているため、様々な周波数成分に着目した比較が必要である。本論文では、ウェイブレット変換を用いた多様な周波数成分の検出と、量子化・差分化した各成分の文字への置き換えによって、高速配列情報解析アルゴリズムの適用を可能とした。高速に検出された類似のランドスケープ候補から、元のウェイブレット係数を比較することによって最終的に相関の高い領域が抽出される。全ゲノムレベルの解析を数分で行うことが出来るソフトウェアを提案した。

提案された手法は、既知の相関のあるランドスケープ(ヒストンのメチル化とクロマチンのopen/closed状態)を検出し、既知の無相関のランドスケープ(遺伝子密度とLINE-1の密度)を検出しないことが確認された。本手法を用いた解析により、幹細胞におけるDNA複製のタイミングと、Alu密度に相関があることが示された。

なお、本論文は、浜田道昭、浅井潔との共同研究であるが、論文提出者が主体となって開発、分析及び検証を行ったもので、論文提出者の寄与が十分であると判断する。

したがって、博士(科学)の学位を授与できると認める。

UTokyo Repositoryリンク