標題(和) Arapan : 自動的ゲノム・アセンブリ・システム
標題(洋) Arapan : A Systematic and Automated Genome Assembly System
Recent discoveries have been shown that DNA molecules became one of the most fundamental information in genetic sciences. Knowledge of DNA sequences will be ultimately fruitful for curing complicated diseases as the case of cancers for example. Decoding the code of life (i.e. DNA) into human natural languages will eventually lead us to new findings in various fields including medicine, biology, forensic biology, biochemistry, biotechnology and agriculture.

To obtain the genome sequence of any species needed what is now called sequencing technology. The complexity of DNA molecule structure as well as its tininess prevents any current sequencing technology to sequence the whole genome at once. As a result, we could not obtain the complete genome sequence but a set of reads that include sequencing errors and sometimes contaminated with cloning vectors or other foreign genomes. Bringing these reads all together in order to reconstruct the original genome sequence is called the (whole) genome assembly problem in literature. The different challenges that came along with DNA reads pushed computer scientists to design and develop more sophisticated assembly algorithms. This research topic epitomizes the backbone of this thesis. As a result, we developed an automated and systematic genome assembly system that was divided into two important sets of tools: preprocessing tools and assembly tools.

Because of the hugeness of sequencing data and the difficulty of other different constraints, we aimed at designing different tools for preparing the data to be independent from any genome assembler. Consequently, we could universalize the input of our assemblers to be "theoretically" adapted for any sequencing technology. By this way, the output data can be used for other purposes as well, and whenever a new sequencing technology appears in the market, we can just create simple tool for converting its data to the universalized input of our assemblers. More so, we can concentrate on developing the assembly algorithms regardless of the characteristics of the data produced by any sequencing technology. This separation can lead us to build more robust assemblers and creating new tools for preparing, analyzing, visualizing and validating the sequencing data. During this research, we could develop a sequencing errors corrector, trimming tool and other useful as well. In the first part of this thesis, we will explain in details the design and algorithms of each of these tools.

Most of genome assembly approaches use graph theory algorithms and data structures. Two approaches have been used to design the assemblers: the overlap graph-based approach and the de Bruijn graph-based approach. Each approach has some weak and good points. Creating more efficient assemblers requires analyzing the chosen graph more deeply so that it can be safely traversed for constructing long contiguous sequences. We discovered new substructures in the de Bruijn graph with the aim of developing a genome assembler that is able to produce more accurate results and avoid the misassemblies as much as possible. Assembly algorithms were kept simple, fast and designed in a cascaded way. As a result, we could develop two specialized de novo assemblers: Arapan-S and Arapan-M. We will explain step-by-step the overall architecture of our assemblers as well as the algorithms used in their different stages.

We will express and show the performance of each tool we created in the result section of each chapter throughout this thesis.

本論文は七章からなり、第一章では、ゲノムアセンブリ問題の背景および動機を明らかにし、上記問題に対する提案手法群の貢献の概要を述べている。第二章では、ゲノムアセンブリ問題を解くための元データである、DNAシークエンスデータを産生する技術のサーベイを行っている。また既存のゲノムアセンブリ手法が、Overlap graphに依拠するものと、de Bruijn graphに依拠するものとの二種に大別されることを述べ、それぞれの特徴を説明し、本研究でde Bruijn graphに基づく戦略を採用した動機を述べている。第三章では、提案手法に基づき実装したシステムの構成を述べている。システム全体は、シークエンスの生データの前処理を行うものと、処理後のシークエンスデータを入力としてアセンブルを行うアセンブラからなることを示し、それぞれの役割と開発の指針を説明している。第四章では、シークエンス生データの前処理を行うために提案した手法群(DNA ScissorおよびQamar)のアルゴリズムの説明および性能評価を行っている。DNA Scissorはシークエンスデータに混入するクローニングベクター由来の配列の除去を行う手法であり、Qamarはシークエンスデータに含まれる配列読み取りエラーの訂正アルゴリズムである。提案手法を様々なシミュレーションデータおよび実データセットに対して適用し、各提案手法がそれぞれの既存手法よりも精度が高いことを明らかにしている。第五章では、提案した二種のアセンブラー(Arapan-SおよびArapan-M)のアルゴリズムを説明し、それぞれのアセンブラーを種々の実データに対して適用し既存手法と性能を比較し提案手法の有効性を明らかにしている。Arapan-Sは小規模ゲノム用のアセンブラーであり、de Bruijn graph中のバブルと呼ばれる部分グラフ構造の解消に高速なアルゴリズムを提案している。またアセンブリアルゴリズムとして、従前使われてきたグラフ中の最短経路を探索する方法ではなく、グラフ中のノードに付随するk-mer配列の頻度または長さの情報を利用する新規手法も提案し、双方の性能を比較し結果を議論している。一方、Arapan-Mは、Arapan-Sを基に開発された長い繰り返し配列を含む中規模ゲノム用のアセンブラーであり、申請者はde Bruijn graphの注意深い観察から、グラフ構造のクリーニングの段階において解消されるべきものとして四種の新規部分グラフ構造を見いだし、それぞれの解消アルゴリズムを提案している。更に各部分グラフ構造のアセンブル精度への寄与を実データに対する実験により示し結果を議論している。第六章では、本研究を進めるに当たり開発した種々のツール群のアルゴリズムを説明し、性能を評価している。第七章では、研究の概括と今後の展望を述べている。



