学位論文要旨



No 126450
著者(漢字) 王,悦
著者(英字)
著者(カナ) オウ,エツ
標題(和) タンパク質名アノテーション付コーパス間の比較分析に基づく頑健なタンパク質名認識器の開発
標題(洋) DEVELOPING ROBUST PROTEIN NAME RECOGNIZERS BASED ON A COMPARATIVE ANALYSIS OF PROTEIN ANNOTATIONS IN DIFFERENT CORPORA
報告番号 126450
報告番号 甲26450
学位授与日 2010.09.27
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第295号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 准教授 渋谷,哲朗
 東京大学 教授 須田,礼仁
 東京大学 教授 相澤,彰子
 東京大学 准教授 井元,清哉
 東京大学 教授 高木,利久
内容要旨 要旨を表示する

In order to support the development of protein (or gene) name recognizers, several corpora with human-annotated protein or gene names have been designed and built. While the existing corpora considerably contribute to the advancement of biomedical information extraction, significant incompatibilities between these corpora remain. Here, incompatibilities mean that what is treated as a protein in one corpus might not be marked as protein in another, or even if both corpora reach an agreement on annotating the same entity, the textual boundaries in each corpus might not be identical. These incompatibilities make evaluations performed on different corpora incomparable, and also make integration of different corpora sometimes practically meaningless. An even more serious problem is that sometimes the protein annotations within a single corpus are not well understood by users. The issues mentioned above cannot be fixed without a thorough understanding of what and where the incompatibilities actually are.

To remedy this situation, first a comparative analysis is performed to five currently well-known corpora with annotated protein names. The sources of the incompatibilities are determined as follows. First, while all five corpora contain annotations identifying protein names, there is no clear consensus on the concept of what constitutes a protein name. Second, because different corpora focus on different entity types, there are various ways of defining the scope of "protein" and of selecting their text span representations. The comparative analysis reveals the primary similarities and dissimilarities between the five corpora. According to this, this thesis suggests an approach to profile the protein annotations in the selected corpora. By using one of the five corpora as a reference, the organizations of the other four corpora from the perspective of the reference corpus are illustrated. The profiling results not only qualitatively confirm what are found in the annotation guidelines for each corpus, but also give a quantitative study of what are shared across different corpora. These results are useful in choosing the corpora or the recognizer which best meets the users' requirements. That is, users can make a choice according to the actual entities they want to capture, once their specific requirements are understood in light of the differences mentioned above.

Based on the results of the analysis, this thesis proposes the following methods to improve the compatibilities cross multiple corpora. First, protein-related annotations are selected and merged from different corpora considering their different scopes of interest in their development. Second, annotations in one corpus can be used to discover "interfering" annotations in another corpus. On the basis of this, filtering strategies are introduced to tailor one corpus to be compatible with another one. Finally, by properly considering the characteristics of each corpus, the incompatible corpora are merged into a large, multi-domain corpus. Several protein name recognizers are trained on the merged corpus and show robust performances across all the studied corpora. When experimenting with heterogeneous data, these protein name recognizers even perform better than experimenting with homogenous data.

本論文は、医療・生物学文献におけるタンパク質名および遺伝子名に対する認識器を開発するために作成された、タンパク質および遺伝子名をタグ付けした複数のコーパスに対して、コーパス間の不整合を検出し、その情報を利用して複数のコーパスを統合することで、より大規模かつ複数分野にまたがる整合性の高いコーパスを作成する手法を提案し、さらにそれを用いることによって単一のコーパス上での訓練した場合よりも高精度かつ頑健な認識器を作成できることを示したものである。

本論文は八章からなり、第一章では本論文における研究の動機付けとなる背景として、タンパク質および遺伝子名をタグ付けしたコーパスにおける問題点および、それを改善あるいは解決するための関連する従来手法について概観している。第二章は、本論文の貢献および概要に関してまとめたものである。第三章では、本論文で扱うタンパク質名および遺伝子名に関する複数のコーパスについてそれぞれの概略を紹介している。また第四章においては、本論文が用いているBANNERとよばれるタンパク質名ならびに遺伝子名の認識器について解説を行っている。第五章においては、コーパス間の不整合の性質について上記BANNERを用いて解析を行うとともに、タンパク質名・遺伝子名のタグの境界のゆれに関して、エントロピーの概念を用いて、各コーパスの比較を行っている。第六章においてはそれらの比較解析をさらに進め、複数あるコーパスのうち、最も整合性が高くタグ付け対象も広いGENEIAコーパスに特に着目し、GENEIAコーパスおよび他のコーパスとの比較解析を行うことで、各コーパス間の不整合の性質をより詳細に解析している。それらの結果に基づいて第七章では、検出されたコーパス間の不整合を排除した上で異なるコーパスを統合することにより、タンパク質および遺伝子名の認識器の精度および頑健性が向上することを示した。第八章では、本論文で提案した手法と有効性を総括し、さらに今後考察すべき課題についての展望が示されている。

なお、本論文の研究は、Jing-Dong Kim氏、Rune Saetre氏、Sampo Pyysalo氏、大田朋子氏、ならびに辻井潤一氏との共同研究であるが、論文提出者が主体となって立案、分析、検証を行ったもので、論文提出者の寄与が十分であると判断する。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

審査要旨 要旨を表示する

本論文は、医療・生物学文献におけるタンパク質名および遺伝子名に対する認識器を開発するために作成された、タンパク質および遺伝子名をタグ付けした複数のコーパスに対して、コーパス間の不整合を検出し、その情報を利用して複数のコーパスを統合することで、より大規模かつ複数分野にまたがる整合性の高いコーパスを作成する手法を提案し、さらにそれを用いることによって単一のコーパス上での訓練した場合よりも高精度かつ頑健な認識器を作成できることを示したものである。

本論文は八章からなり、第一章では本論文における研究の動機付けとなる背景として、タンパク質および遺伝子名をタグ付けしたコーパスにおける問題点および、それを改善あるいは解決するための関連する従来手法について概観している。第二章は、本論文の貢献および概要に関してまとめたものである。第三章では、本論文で扱うタンパク質名および遺伝子名に関する複数のコーパスについてそれぞれの概略を紹介している。また第四章においては、本論文が用いているBANNERとよばれるタンパク質名ならびに遺伝子名の認識器について解説を行っている。第五章においては、コーパス間の不整合の性質について上記BANNERを用いて解析を行うとともに、タンパク質名・遺伝子名のタグの境界のゆれに関して、エントロピーの概念を用いて、各コーパスの比較を行っている。第六章においてはそれらの比較解析をさらに進め、複数あるコーパスのうち、最も整合性が高くタグ付け対象も広いGENEIAコーパスに特に着目し、GENEIAコーパスおよび他のコーパスとの比較解析を行うことで、各コーパス間の不整合の性質をより詳細に解析している。それらの結果に基づいて第七章では、検出されたコーパス間の不整合を排除した上で異なるコーパスを統合することにより、タンパク質および遺伝子名の認識器の精度および頑健性が向上することを示した。第八章では、本論文で提案した手法と有効性を総括し、さらに今後考察すべき課題についての展望が示されている。

なお、本論文の研究は、Jing-Dong Kim氏、Rune Saetre氏、Sampo Pyysalo氏、大田朋子氏、ならびに辻井潤一氏との共同研究であるが、論文提出者が主体となって立案、分析、検証を行ったもので、論文提出者の寄与が十分であると判断する。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク