学位論文要旨



No 122785
著者(漢字) 全,弘宇
著者(英字) Chun,Hong-Woo
著者(カナ) チョン,ホンウ
標題(和) 遺伝子-疾患関係概念の文献からのマイニング
標題(洋) Mining Literature for Disease-Gene Relations
報告番号 122785
報告番号 甲22785
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第115号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 医科研 講師 渋谷,哲朗
 東京大学 教授 今井,浩
 医科研 助教授 木下,賢吾
 東京大学 教授 中川,裕志
 東工大 助教授 徳永,健伸
内容要旨 要旨を表示する

Background: Automatic extraction of relations between a specific disease name and its relevant gene or protein names is an important practice of bioinformatics. Considering the utility of the results of this approach, we identified disease and gene names with the ID tags of public biomedical databases. Moreover, considering that genetics experts will use our results, we classified them based on topics that can be used to analyze the type of disease-gene relations.

Methods: We developed a Maximum Entropy Markov Model (MEMM)-based disease and gene name recognizer, a relation extractor and a topic-classified relation extractor applied them to a corpus-based approach. We collected corpus from MEDLINE with respect to prostate cancer and gastric cancer, and constructed an annotated corpus of disease and gene relations based on two topics: etiology and clinical marker. To recognize disease and gene names and extract any relations between them, we used rich information that was obtained from an analysis of syntactic structures of the input data. Moreover, to extract relations based on the topics, we collected various features considering aliases, synonyms, acronyms and full names of candidate disease and gene names that were obtained from abstracts (vocabulary and context extension). We used them to train the Maximum Entropy Markov Model (MEMM)-based disease and gene name recognizer, relation extractor, and topic-classified relation extractor.

Results: Topic-classified relation extraction achieved encouraging results. For the relations between prostate cancers and genes, the performance of relation extraction based on etiology obtained 77.6% F-measure (increases of 75.0, 74.4, and 2.2% from that obtained in experiments using the dictionary matching, disease and gene name filtering, and relation filtering methods, respectively. Each method used all the previous methods. In other words, the relation filtering method used the results of the dictionary matching and disease and gene name filtering methods.) and that based on clinical marker obtained 77.0% F-measure (increases of 29.1, 24.5, and 7.3% from that obtained in experiments using the dictionary matching, disease and gene name filtering, and relation filtering methods, respectively.).

For the relations between gastric cancers and genes, the performance of relation extraction based on etiology obtained 74.0% F-measure (increases of 46.0, 43.2, and 8.0% from that obtained in experiments using the dictionary matching, disease and gene name filtering, and relation filtering methods, respectively.) and that based on clinical marker obtained 65.1% F-measure (increases of 51.8, 49.6, and 9.8% from that obtained in experiments using the dictionary matching, disease and gene name filtering, and relation filtering methods, respectively.).

Conclusions: A series of experimental results revealed three important findings:

(1) A carefully designed named entity filtering and relation filtering methods can improve the performance of topic-classified relation extraction. (2) Features that were obtained by extension of context and vocabulary improved the performance of topic-classified relation extraction, and (3) The Maximum Entropy Markov Model-based topic-classified relation extraction approach achieved the encouraging results for both prostate cancer- and gastric cancer-related instance sentences.

審査要旨 要旨を表示する

本論文は、医療応用上きわめて重要な病気と遺伝子の関係を文献からマイニングする手法について論じたものである。本論文では、病名、遺伝子名の抽出を最大エントロピー法を用いて行い、さらに関係の抽出の際にそのカテゴリーの予測も行う手法を提案している。さらに生物医学論文要旨データベースから前立腺がんと胃がんに関係する遺伝子について実験を行い、その効力を実験で検証している。

 本論文の第一章では、本研究が必要とされている背景について、生物医学論文要旨データベースMedlineの文献数の増大等の観点から概観している。

 第二章は本論文に関連する従来研究として、文献からタンパク質-タンパク質関係の抽出する研究と病気-遺伝子関係の抽出する研究を挙げている。また、第三章では、本論文の提案する手法のおおまかな流れを説明している。

 第四章では、文献から病名と遺伝子名を抽出する前段階で用いる病名と遺伝子名の辞書の構築について、および、生物学者によって注釈を与えられた病気-遺伝子の関係についてのコーパスの作成について述べている。

 第五章では、前章の辞書のマッチングによって文献から得られた病名および遺伝子名について、それらが実際に関連しているかどうかを最大エントロピー法を用いて判定する手法について提案し、その性能を実験を通して検証を行っている。

 さらに第六章では、こうして得られた病名と遺伝子名の候補を、病因としての関係と臨床的指標としての関係に分類する最大エントロピー法に基づく手法を提案し、その性能を実験を通して検証している。また、論文末には補遺として、実験で誤って予測された病気-遺伝子関係の実例を多数あげ、このシステムを実際に使用する際の参考となるようにしている。

 第七章では、提案した手法の性能を多数の実験を通して検証している。また、メモリベース学習法を適用した場合よりも本提案手法によるものの方が性能がよいことを示している。

 第八章では、以上の成果を総括し、さらに今後取り組むべき問題についての展望をしめしている。

 以上のとおり、本論文は医療応用上きわめて重要な病気と遺伝子の関係を文献からマイニングする新しい手法について述べたものであり、従来手法との比較からもその優位性は明らかである。なお、本論文は、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与が十分であると判断する。

 よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク