学位論文要旨



No 127261
著者(漢字) 石井,奈都
著者(英字)
著者(カナ) イシイ,ナツ
標題(和) ヒト脳俯瞰データベース構築のための図分類とアノテーション手法の自動化
標題(洋) Automatic image classification and annotation methods towards development of comprehensive human brain database
報告番号 127261
報告番号 甲27261
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第708号
研究科 新領域創成科学研究科
専攻 情報生命科学専攻
論文審査委員 主査: 東京大学 准教授 伊藤,啓
 東京大学 教授 高木,利久
 東京大学 教授 黒田,真也
 東京大学 教授 辻井,潤一
 東京大学 准教授 中谷,明弘
内容要旨 要旨を表示する

Due to rapid progress in the development of neuroimaging technologies to analyze human brain activity, many neuroscience research articles are published each year. This phenomenon has created significant demand for a large-scale neuroscience database to store the information in these articles, particularly results regarding the relationship between brain region and function. However, manual curation is extremely labor-intensive and time-consuming, and automatic information extraction program would be very useful.

The aim of this study is to develop a database system that can search and overview neuroscience research outcomes by extracting information from neuroscience research full-text articles.To this end, I decided to index neuroimaging figures in neuroscientific articles with important key terms (e.g. names of brain region, brain function, and task/stimuli given to subjects) from individual articles, because figures in articles usually represent primary research outcomes in a visually understandable way. Such a system would enable researchers to identify various brain regions related to a specific function, along with the tasks and modalities used in relevant studies.

In this thesis, methods for automatic figure classification and annotation are proposed to achieve the above mentioned database system. Regarding figure classification, I developed a text-based figure classification system to automatically select and classify figures of my interest (neuroimaging figures) according to the imaging modality used. This was achieved by Support Vector Machines using word vectors representing each figure in the data set, utilizing texts in figure legends and the main text of the articles. To make the best use of available texts, not only bag-of-words but also bi-grams of words were adopted as features to compose word vectors. This enabled the system to consider multi-word terms of great importance that are frequently used in neuroscience. The combination of bag-of-words and bi-gram features was quite powerful. As for figure annotation, I developed a key term extraction method to annotate each figure, based on the contents of an article that contains the figure. The methodology proposed in this study was based on graph-based ranking model, termed TextRank, which allows an unsupervised article-level key term extraction. To extract more specific terms to each article, I utilized the statistical information drawn from individual articles as well as other articles in the same and other domains. The method proposed in this thesis outperformed the original TextRank algorithm and other previous methods such as TF*IDF. Furthermore, I devised several means to improve the precision of my method. I introduced a new measure to quantify the degree to which a given word sequence is considered to be an actual and meaningful term. I also used the word frequency distributions in the article and articles in other domains to filter out "junk" terms. Finally, among extracted key terms for each article, I identified those representing names of brain regions using statistical information in the corpus so that the users of the database system can specify a region of his/her interest. As a consequence, a prototype database system that can search neuroimaging figure by key terms was implemented, based on these results.

I believe that a system capable of gathering and storing neuroscience research outcomes in an efficient manner will promote research in this area and benefit our understanding of the function of the human brain.

審査要旨 要旨を表示する

本論文は序論(第1章)を除いて大きく3つの部分からなり、第1部(第2章)は画像の自動分類法、第2部(第3章)はキータームの自動抽出法、第3部(第4章)はこれらを実装したデータベースについて述べられている。

学術論文の膨大な情報をデータベース化するにはその論文に書かれた情報を適切にキーワード化して検索・俯瞰できるようにする必要があるが、現状ではこの作業は人手に頼らざるを得ない。高い精度で情報を自動抽出する手法の確立は、大規模データベースの効率的な構築・運用のために不可欠である。本研究はこの目的に向けて、脳科学研究の分野に着目し、論文中の画像に関する情報を自動抽出する鍵となる手法を開発した。

本研究は最初に、「ある画像がどういう実験の結果を示すものであるか」を正しく分類して記述する方法の開発を行った。脳画像の取得には主にMRI, fMRI, CT, MEG, EEG, PETの6種類の実験手法が用いられるが、これらで得られる画像は互いに似通っており、画像認識の方法だけでは正しく分類することができない。そのため、関連するテキストを解析してクラス分類することが不可欠である。本研究では、テキスト中の単語をベクトルで表し、サポートベクターマシンを用いて機械学習を行った。従来発表されてきた手法では、この際に個々の単語の集合 (bag of words)のみを利用していたが、本研究では2単語の組 (bigram)を考慮に入れることで特徴を効果的に抽出し、高い精度の多クラス分類を実現した。さらに、従来の研究ではテキストとしてそれぞれの画像に付せられた解説文 (figure legend)のみを利用するものが多かったが、本研究では解説文のみを用いた場合に加え、解説文と表題・要旨を用いた場合、さらに解説文・表題・要旨と本文を用いた場合を比較し、後者ほど精度が向上することを見いだした。

個々の単語の集合だけでなく2単語の組を考慮した分類手法は本研究が初めてである。図に直接付属した解説文に加えて本文をも考慮に入れる手法は以前にも発表されているが、本研究は解説文のみ、表題・要旨を加えた場合、さらに本文をも加えた場合の分類精度を体系的に比較し、精密な検討を行った初めての研究である。条件を様々に変えた解析はきわめて計画的に行われており、分類精度が向上した場合だけでなく向上が見られなかった場合についても、その原因を議論して、納得できる説明を行っている。この意味で、本研究はオリジナルの研究として高く評価できるものである。

次に本研究は、「ある画像がどういう部位・特徴・作業課題・疾患・遺伝子などに関連した内容を示しているのか」をデータベースにキータームとして記載するための、アノテーション作業を自動化する方法を開発した。そのためには、その画像を掲載した論文を特徴付ける単語を自動抽出する必要がある。そこで、グラフ理論に基づいて単語の相互関係を評価するテキストランク法を利用して、単語の「タームらしさ」を評価する方法を構築した。これによって、ある論文と対照群の文章群データ(コーパス)を比較してキーターム抽出する従来提唱されていた手法に比べ、大きな改善が見られた。さらに、一般的な単語や重要な情報を持たない単語など適切でないキータームが抽出されてしまう現象を極力抑えるため、さまざまなフィルタリング手法を検討した。まず、脳科学分野の論文とそれ以外の生物分野の論文のコーパスを比較して前者にのみ多く登場する単語を抽出することにより、生物科学一般に用いられる用語を効率よく排除した。さらに、それぞれの論文で鍵となる用語は出現頻度が非常に高い傾向があるので、頻度分布を利用したフィルタリングによって特例的な用語を排除した。さらに、脳科学分野の多くの論文に共通して現れる単語は特徴性が低いと見なせるため、これら分野一般的な用語を頻度分布に基づいて排除した。これら種々の改善によって、従来よりも大幅に効率的なキーターム抽出を実現した。

この研究はテキストランク法の有効性を実証した点で有意義であると同時に、各種のフィルタリング技法の考案は深い洞察に裏打ちされたもので高く評価できる。特に、ある学術分野の論文とそれ以外の分野の論文のコーパスを比較する手法は効果が大きく、この有用性を実証したことの意義は大きい。本研究で開発されたキーターム抽出手法は、脳科学だけでなくさまざまな分野でも実際に使うことが可能な汎用的なものであり、今後のさらなる発展が期待される。

本研究は最後に、開発した手法を用いて実際に論文画像の自動クラス分けとキーターム抽出を行った情報を搭載したデータベースを作成し、公開した。これは現時点ではまだデータ数が多くなく、網羅的な検索ができる状態には達していないが、本研究で提唱された情報抽出自動技術が実用的に利用できるレベルのものであることを実証した。今後、元データとなる論文データから図版や解説文情報を高精度に認識抽出する技術の改善が進めば、本研究の究極目的である大規模な俯瞰データベースの実現に大きく寄与するであろう。

以上のように本論文は、情報の自動抽出の基本的手法を開発し、実用性を検証した意義の高い研究であると認めることができる。なお、本論文第1部は小池麻子・山本泰智・高木利久、第2部は小池麻子・高木利久との共同研究であるが、論文提出者が主体となって分析及び検証を行ったもので、論文提出者の寄与が十分であると判断する。

したがって、博士(科学)の学位を授与できると認める。

UTokyo Repositoryリンク