学位論文要旨



No 214611
著者(漢字) 中谷,明弘
著者(英字)
著者(カナ) ナカヤ,アキヒロ
標題(和) 相関した遺伝的要素の解析に向けた並列データマイニング
標題(洋) Parallel Data Mining for Analysis of Correlated Genetic Factors
報告番号 214611
報告番号 乙14611
学位授与日 2000.03.10
学位種別 論文博士
学位種類 博士(理学)
学位記番号 第14611号
研究科
専攻
論文審査委員 (主査): 東京大学 教授 米澤,明憲
 東京大学 教授 平木,敬
 東京大学 教授 萩谷,昌己
 東京大学 教授 高木,利久
 東京大学 助教授 今井,浩
内容要旨

 本研究は、生物学的なデータベースからの知識発見に向けた手法について扱い、特に、同データベース内の互いに相関し合った要素が生物学的な現象に及ぼす効果を解明する技法の開発に主眼を置くものである。

 生物学的なデータベースの解析に関しては、互いに相関した複数の要素の効果が注目されており、実際に多くの疾患、例えば、糖尿病や高血圧、卒中などは複数の遺伝的な要素(遺伝子)間の相互作用が原因となっていると考えられている。しかしながら、注目する生物学的な現象に有意な複数の要素の組合せを網羅的かつ効率的に求める技法あるいは、得られた「知識」を表現する技法の開発はこれまでに十分に行われているとはいえない。

 一方、近年、意志決定支援システムあるいは、データマイニングシステムが強い関心を惹いており、大規模なデータの操作、意味解析に用いられている。この目的のために、決定木や、クラスタリング、結合規則を計算するための最適化手法が多く提案されている。これらの手法においても、データ内に存在する複数の属性間の相関関係の取り扱いの重要性が指摘されている。

 このような背景を踏まえて、我々は、生物学的なデータベースから有意な相関要素を抽出することを主目的とした知識発見システムをデータマイニングの技法にもとづいて構築し、実際の生物学的なデータベースの解析に適用した結果によってその評価を行う。

 本研究では、3種類の知識発見の手法を扱う。具体的には、

 (1)複数の遺伝的要素の組合せと疾病の有無の関係の解析を意図した、統計的に最適な結合規則の探索

 (2)複数の数値属性と疾病の有無の関係の解析を意図した、領域規則を用いたデータ分類

 (3)複数の遺伝的要素の組合せと数的表現形の関係の解析を意図した、統計的に最適な結合規則の探索

 である。

 第2章において、最初の手法である、統計的に最適な結合規則の探索について述べる。まず、結合規則の有意さを評価する統計量を導入し、この問題を同統計量を最適化するグラフ探索問題として定式化する。探索の手順は書き換え規則として定義し、探索の並列化手法に焦点を当てる。

 第3章では、領域規則の多数決を用いたデータ分類の手法を扱う。従来の分類手法では、主に分類精度の向上を目的としたものが多いが、本手法では、分類手法がデータから抽出した規則(知識)の可読性にも注目する。領域規則とは、図1に示すように2次元平面上の部分領域を用いてデータの分類を行うものであり、属性間の相関を直接的に表現できる利点をもつ。決定木、ブースティングといった従来手法との比較を行うことによって本手法の評価を行う。

図1:領域ルールの多数決による属性値の予測(灰色の部分領域が白丸と黒丸を分類)。

 第4章では、複数の遺伝的要素の組合せと数的表現形の関係の解析を意図した、統計的に最適な結合規則の探索手法を扱う。同手法をOLETFと呼ばれる糖尿病のモデルラットのデータに適用して、複数のマーカの遺伝形の組合せと数的な表現形(血糖値と体重)の解析を行い、その結果(図2はその一部)について紹介する

図2:糖投与後の血糖値に関与するマーカの組合せの有意さの変化(色の濃い組合せほど有意)。

 また、各節では、上記3種類の手法を最大128プロセッサを有する共有記憶型並列計算機上で実装し並列実行性能に関する評価を行う。

審査要旨

 DNAチップやマイクロアレイといった観測手法の出現に象徴されるように、分子生物学における実験技術の自動化と大規模化が急速に進められている。そこで生成される膨大なデータを、計算機を用いて解析し、その結果に基づいた適切な実験計画の立案が不可欠なものなりつつある。一方、多因子性疾患は、複数の遺伝子間の相関によって挙動が制御されていると考えられているが、問題の組み合わせ論的性質に起因して、未だ解決が難しい問題である。本論文では多因子性疾患の解析を例題として情報科学的な手法によるデータ解析技法を提案し、その並列計算機上の実装および実データに対する解析結果を示し、解析手法の有効性を実証している。また、本論文は同疾患の解析手法の考案・開発を通して、計算量的な考察、探索アルゴリズム、並列計算機上での実装手法などを扱っており、純粋に計算機科学的な貢献も大きい。

 本論文は全5章からなり、第1章で本論文の背景と動機について、第2章から第4章において新たに考案・開発した3つのデータマイニング手法について述べた後、第5章において結論と今後の展望について述べている。

 第2章では、条件部分に論理積を用いた結合規則(論理積規則)の統計学的な性質に注目し、最も有意性の高い論理積規則を求めるための並列実装技術について述べている。本章の手法で重要な部分は、新たに考案・開発した(1)並列化が容易な探索木の構成法と、(2)探索空間を圧縮するための分枝限定法である。類似の目的には演繹的算法が広く用いられているが、それらの算法は統計的に有意な論理積規則を出力するものではない上、同規則の評価に複数の指標を用いている欠点が指摘されている。これに対して、提案手法では統計的に最適・準最適な論理積規則を有意度の順に出力できる利点をもつ。この最適化問題はNP困難であるが、提案手法を並列計算機上で実装して性能評価を行い、実データの解析に関しては実用的な時間内で解くことが可能であることを実験的に確認している。生物学的データベースに注目すると、提案手法は疾病の有無に有意な複数の遺伝的要素の組み合わせを探索する問題に適用可能であり、実用的な価値も高いものである。

 第3章では、データベース内に潜在する規則を抽出し、その規則に基ついてデータベース内エントリをクラス分類する手法について述べている。まず、従来の手法における属性間の非線形な相関関係に起因する問題点を、分類規則の精度と可読性の面から指摘し、その上で、領域規則の多数決によるクラス分類手法を提案している。領域規則は、2つの属性間の相関を視覚的に表現することによって、分類規則の可読性を向上させる利点をもつ。提案手法を、性能評価用の公開データセットのクラス分類に適用した結果、特にデータベースが数値属性を多数含む場合、単一の決定木を超える分類精度と規則の可読性を達成することを実験的に示している。同提案手法は、観測値として多数の数値データを含む生物学データベースの解析に有効である。特に、多因子性疾患においては、環境要因と呼ばれる数値データが疾病に強く影響していると考えられており、本章の手法によって解析が可能となり実用的な意義も深い。

 第4章では、複数の遺伝的要素の組み合わせと数的表現型の関係に関する新しい解析手法を与えている。本章の手法は、数的表現型に関する複数遺伝的要素の組み合わせの有意さを直接的に評価する点に新規性がある。従来手法は、単一の遺伝的要素の有意さを評価するものであり、複数要素の相互作用の効果は近似的に評価されていた。本章では、OLETF糖尿病モデルラットのデータに本手法を適用して、数的な表現型(血糖値と体重)に関連した遺伝的要素の組み合わせを発見しており、解析手法の提案のみではなく実用的な面からの有効性の評価が行われている点も重要である。

 第5章では、本論文の結論と今後の展望について述べている。個々の手法の有効性については上述の通りであるが、とりわけ、生物学データの解析においては、一般性のあるデータマイニング手法の考案を目指しつつも、実データの解析における有効性の確認が重要であることを述べている。

 以上、本論文では、多因子性疾患のデータ解析を例題として提案された手法の有効性を実証しているが、生物学の他の多くの局面で複数の要因が互いに作用し合っている現象が知られていることから、提案されている手法はより広い範囲の解析に貢献する可能性が大きい。また、計算機科学の一般的な問題としての考察も十分行っており、並列化に適した探索木の構成手法、可読性を考慮した分類手法など、計算機科学としての貢献も大きく理学博士を与えるに十分な内容を有している。

 なお、本論文第2章は、森下真一氏、第3章は、森下真一氏及び古川英晴氏、第4章は、森下真一氏及び菱垣晴次氏との共同研究であるが、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与が十分であると判断される。

 したがって、博士(理学)を授与できると認める。

UTokyo Repositoryリンク