学位論文要旨



No 122360
著者(漢字) 河村,大輔
著者(英字)
著者(カナ) コウムラ,ダイスケ
標題(和) DNAマイクロアレイを用いたヒトゲノムコピー数多型の綱羅的解析
標題(洋) Genome-wide detection of human copy number variations using high density DNA oligonucleotide arrays
報告番号 122360
報告番号 甲22360
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6565号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 助教授 中村,宏
 東京大学 教授 南谷,崇
 東京大学 教授 児玉,龍彦
 東京大学 教授 油谷,浩幸
 東京大学 特任教授 井原,茂男
内容要旨 要旨を表示する

 In the last several years following completion of the human genome sequence, new progress in unraveling the complexities of the genome's architecture has revealed a remarkable degree of copy number variations (CNVs) present among normal individuals. Just as the effort to build a genome-wide haplotype map is already providing the framework for new studies designed to identify the underlying genetic basis of complex diseases, pathogen susceptibility, and differential drug responses, a thorough map cataloguing and indexing CNVs in the human genome is a necessary prelude to understanding their role in the context of both the normal and disease state. Although there are increasingly clear examples of how CNVs can, for example, influence susceptibility to HIV infection, modulate drug responses, or contribute to genomic micro-deletion and duplication syndromes, a comprehensive biological understanding of the roles of CNVs is not yet currently available.

 To this end, a number of different molecular techniques can conceivably be used for CNV detection, but array-based experimental approaches, in contrast to more focused techniques such as quantitative PCR (QPCR) and fluorescence in situ hybridization (FISH), offer the greatest potential for global, high resolution scans of CNVs in the genome. However, they do not provide direct information about copy numbers. Signal of DNA microarray includes significant noise. Additionally, in contrast to the detection of copy number changes in tumor samples, where DNA from the same individual can be used as a reference, the use of matched samples is not possible for CNV detection in normal individuals. Similarly, the use of a single reference, as is often used in BAC-array CGH, is limited by the inability to determine whether a copy number change is from the test or the reference sample. For these reasons, computational method for the accurate detection of CNV are very much needed.

 In this thesis, we study the problem of detection of copy number changes using high density DNA oligonucleotide SNP arrays, including detecting presence of CNVs and identifying the boundary and the absolute copy number of the CNV. The algorithm described in this thesis contains two major parts as shown in Figure 1. Intensity pre-processing includes probe selection, noise reduction, scaling. CNV detection begins with pair-wise comparisons of probe intensities for all possible pairs of samples which are then merged to extract candidate CNV regions for each sample. Homozygous deletions are detected separately using an alternative approach which relies on the discrimination ratio between alternate SNP alleles in lieu of SNP genotypes. Then signal ratios and SNP information are utilized to more precisely define CNV boundaries and the copy number within each region. Finally a maximum clique algorithm is used to define the diploid samples for any given region based on the results from the large reference data. Through a comparison of the test sample to the diploid sub-set, precise boundaries and accurate copy number inferences can be drawn.

 In Chapter 2 presented a method of pre-processing for microarray data in CNV analysis. We aimed to improve S/N ratio of microarray signals for subsequent CNV analysis. Probes that can be affected by cross-hybridization or sequence variation of recognition sites are removed. Skews of signal ratios due to probe affinity difference and properties of experimental conditions are reduced. We showed that our algorithms improve S/N ratio of microarray signals and lead to more accurate CNV detection.

 In Chapter 3, we attempted to idenitfy CNVs using pre-processed microarray data. We aimed to detect CNVs and identify the boundary and the absolute copy number of the CNV accurately. This was achieved by summarizing pair-wise comparisons of probe intensities for all possible pairs of samples. Homozygous deletions are detected separately using an alternative approach which relies on the discrimination ratio between alternate SNP alleles in lieu of SNP genotypes. CNV boundaries and the copy number within each CNV region are estimated using signal ratios and SNP information. We showed that by using out approach, we can detect CNVs more accurately than conventional algorithms.

 In Chapter 4 we applied the proposed method described in chapter 2 and 3 to the large scale real dataset and attempted to create a global map of CNVs in the human genome with high accuracy. We identfied 1203 CNVs in the dataset, spanning a large size range from less than 1 kb to greater than 3 Mb. The CNVs identified using this algorithm provides the framework for the comprehensive global map of CNVs in the human genome.

 In this thesis, we presented a series of algorithms for addressing problems in detection of copy number variations in the human genome using high density SNP arrays. It is evident that in the upcoming years, much more data will become available. We hope our algorithms will be used to detect CNVs in such large amount of data and contribute to the future research of genomic variation in the human genome.

審査要旨 要旨を表示する

 本論文は「Genome-wide detection of human copy number variations using high density DNA oligonucleotide arrays」と題し、5章から構成されている。近年、正常個人間におけるゲノム配列の大規模な重複や欠失の多型であるコピー数多型(Copy Number Variation, CNV)がヒトの多様性の形成や疾患に大きく関係していることが明らかになりつつあるが、その全貌は明らかではなかった。DNAマイクロアレイは、このコピー数多型をゲノムワイドに検出することができる技術であり、またシーケンシングなどの技術に比べると廉価で短時間に結果が得られることが利点であるが、シグナルに含まれるノイズにより検出力が低下すること、リファレンスとなる理想的なゲノムが存在しないことにより検出結果に生じるバイアスと検出力の低下が、大きな課題であった。本論文は、これらの問題を解決するために、コピー数多型を高精度に検出する新たなアルゴリズムの開発を行っている。また、提案手法を多様な人種から成る実際のサンプルへ適用をすることで、ヒトゲノムのコピー数多型の全貌を明らかにしている。

 第1章「Introduction」では、本論文の背景と目的を述べ、本論文の構成を述べている。まず、本研究では、DNAマイクロアレイの中でも一塩基多型を検出するために開発されたSNPアレイを用いているが、SNPアレイをコピー数解析に用いることの利点として、一塩基多型とコピー数多型が一度に検出可能であることなどを挙げている。また、本論文で提案する手法が、シグナルに含まれるノイズの低減を行う前処理と、コピー数多型検出の2つのステップから構成されていることを述べている。

 第2章「Pre-processing for Microarray Data」では、シグナルに含まれるノイズの低減を行う部分を論じており、SNPアレイのシグナルに含まれるノイズをモデル化し、それらのノイズを除去する統計的手法の提案とその有効性の評価を行っている。まず、SNPアレイにおけるノイズを (1)クロスハイブリダイゼーションによって生じるノイズ、(2)制限酵素認識配列上にSNPが存在することで生じるノイズ、(3)異なる遺伝子型を持つ2つのサンプルを比較する際に、プローブとDNAの結合力の違いが原因で生じるノイズ、(4) 2つのサンプルを比較する時の実験条件の違いに起因するノイズ、の4種類に分類している。そして、各ノイズをモデル化し、除去する方法について述べている。(1),(2)は原理的に除去不可能なため、そのようなノイズを引き起こす可能性のあるプローブを除くことで対処している。 (3)はGaussian Mixture Clusteringを用いることにより、多数の訓練データから結合力を推定し補正を行う手法を提案している。(4)はPCR productの長さやGC含有率、プローブの結合自由エネルギーなどの値がノイズの強さと相関していることを示し、ロバスト回帰分析を用いることでノイズ成分を正確に推定し除去する手法を提案している。また、実際のデータを用いて、すでに提案されているアルゴリズムとのノイズ低減効果の比較を行い、提案手法が優れていることを定量的に示している。

 第3章「Identification of Copy Number Variations」では、コピー数多型の検出を行う部分を論じており、従来提案されていたアプローチが、検出力の低下や、結果のバイアスを招くことを指摘し、それらの問題を解決する新たなアルゴリズムの提案、及び評価を行っている。解決している問題は2点ある。1点目は、homozygous deletionの検出に関する問題である。従来の遺伝子型に依存する手法では、解像度が低下することを示し、homozygous deletionを検出するための新たな指標と検出手法を提案している。2点目は、リファレンスサンプルの選択に関する問題である。従来はリファレンスサンプルを固定していたために、検出力の低下、及び結果にバイアスが生じることを指摘している。そのため、多数のサンプルの全組み合わせで比較し、その情報をもとにして、コピー数多型領域ごとに適切なりファンレスサンプルをダイナミックに選択する、新たな手法を提案している。また、実データに対し提案手法を適用し、PCRや質量分析計などの確認実験を通してこれらの提案手法の有効性を示している。

 第4章「Copy Number Variations in Hapmap Samples」では、提案する手法を用いて、アジア人、アフリカ人、ヨーロッパ人から成る270人のゲノムを解析し、その結果について考察を行っている。提案手法により解析した結果、1203カ所のコピー数多型領域が見つかり、またそれは全ゲノム領域の約5%をカバーしていた。これは従来考えられていたよりもはるかに広く、コピー数多型が一塩基多型以上に個人間の塩基配列の違いを生み出している可能性が示されたと述べている。また、様々な疾患関連遺伝子のコピー数多型や、特定の人種のみに見られるコピー数多型も発見された。これらの結果により、コピー数多型が、医学的にも進化学的にも重要であることが示されたと述べている。

 第5章「Conclusions」では、以上の成果を要約し、今後の課題を展望している。

 以上を要するに、本論文はゲノム配列の大規模な重複や欠失の多型であるコピー数多型解析を目的とし、マイクロアレイを用いて効率よく高精度に検出するための解析手法を確立し、提案手法を多数の実データに適用することでヒトゲノムのコピー数多型の全貌を初めて明らかにしている点で非常に意義がある研究であり、その成果は工学的に貢献するところが大きい。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク