学位論文要旨



No 128447
著者(漢字) グェン ルー トゥイ ガン
著者(英字)
著者(カナ) グェン ルー トゥイ ガン
標題(和) タンパク質名に対する照応解析
標題(洋) Protein Coreference Resolution for Biomedical Literature
報告番号 128447
報告番号 甲28447
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第358号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 准教授 渋谷,哲朗
 東京大学 教授 相澤,彰子
 東京大学 教授 萩谷,昌己
 東京大学 准教授 鹿島,久嗣
 東京大学 講師 山口,類
内容要旨 要旨を表示する

(本文)Coreference resolution has long been recognized as an important component of information extraction from literature. For biomedical domain, it is also one of the lessons from BioNLP Shared Task 2009 (BioNLP-ST 2009), which was one of the biggest community-wide efforts for textmining, that coreference structures substantially hinder the progress of fine-grained information extraction. While most of the previous works on coreference resolution were concentrated on the news domains, only a few works were carried for biomedical domain, only in a small scale.

To address the problem systematically, first we studied the domain difference of coreference phenomena in newswire domain and biomedical domain through a series of corpus analyses and experiments of coreference resolution for pronouns. Our study revealed several significant differences between the two domains. For example, while gender and person features are quite useful for coreference resolution for news texts, they have no role in the bio domain where the majority of pronouns are third person and neutral gender pronouns. The differences are mostly affected by the type of entities of interest in the two domains; while the entities of interest in newswire domain are mostly persons, companies, and so on, it is biomedical entities, e.g. proteins and cells, in biomedical domain. Considering the significant difference of the two domains, it is necessary to have a task definition that is designed for the biomedical domain rather than replicating the same task definition defined for newswire domain. With this motivation, we defined the protein coreference task and developed necessary resources, e.g. a corpus with coreference annotation, performance evaluation metrics, and an automatic evaluation system.

The protein coreference resolution task was arranged in BioNLP-ST 2011 as a supporting task. As the final results, it received participation from six groups, among which the winning system showed the performance of finding the antecedents of anaphoric protein references at the precision of 73 percent but at the recall of 22 percent.

The analysis on the results of the shared task showed many remaining problems for improvements, among which it is recognized that semantic information is one of the key factors to improve the performance. We implemeneted a coreference resolution system incorporating semantic information specific to the bio domain. Experimental results show the use of semantic information improves the performance significantly, showing 51.3 percent of f-score, which outperforms the winning system of the shared task by 17.2 percent.

審査要旨 要旨を表示する

本論文は、共参照解析を特に医療・生物学文献上のタンパク質名に対して行うために、その評価の基盤となる評価用大規模データ基盤の構築ならびに評価方法の確立を行い、さらにそれに基づいて得られた知見に基づき、新たにタンパク質名に対し特化した新規手法を開発し、それによって医療・生物学文献上のタンパク質名の共参照解析の精度を大幅に向上させることに成功したものである。

本論文は七章からなり、第一章は本論文における共参照解析を医療・生物学文献に特化して研究を行う必要性あるいは動機付けを明らかにしている。第二章は、本論文で用いられる各種用語の解説、共参照解析に関連した関連研究の概略を紹介している。第三章では、対象分野によって共参照解析が異なる性質を持つことを、各種文献集合に対して解析を行うことで明らかにしている。第四章では、そのような共参照解析を医療文献に特化して評価する際の評価方法の提案、ならびに実際に評価する際に重要な基盤となる評価用大規模データ基盤の構築に関して議論されている。この構築された大規模データ基盤ならびに評価手法は、実際にコンベンション型国際ワークショップにおいて参加アルゴリズムの評価に用いられた。また、このデータ基盤は、さらにその後も研究コミュニティの重要な共有資産として用いられており、すでに多数の引用があるなど実際に研究コミュニティへの大きな貢献となっている。第六章では、そのコンベンション型国際ワークショップに参加した多数のチームの共参照解析アルゴリズムの比較を、第五章で構築された大規模データ基盤を用いて行い、各チームのアルゴリズムの特徴を議論するとともにそれぞれの手法の評価し、医療・生物学文献上の共参照解析において何が重要であるかについて議論を行っている。第六章では、第五章で得られた知見に基づき、医療・生物学文献上に特化した共参照解析を大幅に高精度化するため、語句のセマンティック情報を共参照解析の精度向上に活用した新たな手法を提案し、それによって従来の他手法と比較して大幅な精度向上ができたことを実験を通して明らかにしている。第七章では、本論文で提案した手法と有効性を総括し、さらに今後考察すべき課題についての展望が示されている。

なお、本論文の第三章はJin-Dong Kim 氏と、第四、五、六章は、Jing-Dong Kim氏、三輪誠氏、松崎拓也氏、辻井潤一氏との共同研究であるが、論文提出者が主体となって立案、分析、検証を行ったもので、論文提出者の寄与が十分であると判断する。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク