学位論文要旨



No 121896
著者(漢字) 山本,泰智
著者(英字)
著者(カナ) ヤマモト,ヤスノリ
標題(和) 利用者の視点を反映する医学生物学文献自動分類に関する研究
標題(洋) Studies on Document Clustering Considering Users' Interests
報告番号 121896
報告番号 甲21896
学位授与日 2006.10.05
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第107号
研究科 情報理工学系研究科
専攻 コンピュータ科学専攻
論文審査委員 主査: 東京大学 教授 辻井,潤一
 東京大学 教授 萩谷,昌己
 東京大学 教授 中川,裕志
 東京大学 教授 伊藤,隆司
 国立遺伝学研究所 教授 大久保,公策
内容要旨 要旨を表示する

 生物医学分野における研究技術及びそれに伴う研究の進展により、発表文献数の急激な増加と領域の細分化が生じている。このため、興味のある遺伝子の機能についてなど、これまでに得られている知見を網羅的に知ることが困難になっている。問題は、関連文献の数が研究者一人では到底読みきれないほどに非常に多いことと、関連文献を探し出すことが容易ではないことである。これらの問題に対処するため、計算機を利用し、研究者の関連文献調査にかかる手間を軽減し、ひいては大量の文献に書かれた知識に基づく仮説形成の一助になるシステムを開発することは有益であると考えられる。

 現在、利用者が入力する語(キーワードまたは検索語)に関連する文献を検索する文献検索システムは存在するが、幾つかの問題がある。通常一つの研究課題(例えば、ある遺伝子に関する研究)は複数の観点に立つ課題(当該遺伝子により発現するタンパク質の機能や、当該遺伝子が関わる疾患に関する研究など)に分かれるため、優れた文献検索システムをもってしても、利用者がそれらの観点に関する知識をある程度持ち合わせていない限り、適切な文献を取得することが難しい。課題を示す検索語(例えば、遺伝子名)だけでは検索される文献数が多くなりすぎる一方、複数の検索語の組み合わせが不適切であれば、得られる文献は不十分なものとなるだろう。更に、検索結果を閲覧して初めて存在を知る観点もあることが考えられ、別の視点からもう一度検索結果を見直すこともありうる。例えば、ある遺伝子がある疾患に関係していることを知った後で、検索結果を遺伝学に関する視点から見るといった場合があげられる。

 この問題に対する解決法の一つして、既存の文献検索システムから得られる、ある研究課題に関する文献情報を、利用者の与える視点を反映して階層的あるいは非階層的にクラスタリングするシステムを開発した。個々のクラスタは、当該研究課題のそれぞれの観点に対応する。ここでいう文献情報とは、文献の題目、要旨、著者、関連語などである。また、研究課題に含まれるものは、当該検索システムが検索語として受入れられるもの全てとする。例えば、ある遺伝子名を検索語とした場合には、本システムにより得られる結果は、当該遺伝子の機能に関する文献情報のクラスタ、当該遺伝子と疾患に関する文献情報のクラスタなどである。

 本システムの特徴は、利用者の視点に応じてクラスタリングを動的に変化させることが出来る点である。この結果、利用者はさまざまな視点から検索結果を俯瞰することが可能となる。利用者は視点を、システムが提示する検索結果に含まれる文献に関連した統制語のリストから選択することでシステムに与える。また、取得した複数クラスタの中から任意の数だけ選択し、そこに含まれている文献情報のみを対象とした階層的もしくは非階層的クラスタリングを行うことができ、従ってクラスタリングの繰り返しによる、クラスタリング対象領域の絞込みも可能である。

 本システムは文献の題目及び要旨を処理するために、自然言語処理手法を採用し、また、幾つかの領域固有知識資源を利用している。このうち領域固有語辞書を出現語のステミングに、そして領域固有統制語彙をクラスタのラベル付け、および利用者がシステムに視点を伝えるために用いている。題目及び要旨は、文献情報毎に、出現する語の重要度を数値化したものを要素とするベクトルとして表現され(ベクトル空間モデル)、文献情報間の類似度を取得するために用いられる。利用者の視点を反映させるために、情報検索手法の分野で研究されてきた関連性フィードバックを基にしたベクトル変換を行う。これは領域固有統制語毎に、予め用意した一定数の語と当該統制語との関連性の強さをそれぞれ数値化したものを要素とするベクトルを用意しておき、文献検索システムで得られた文献情報の個々のベクトルと線形和を取ることにより実現している。ある語と統制語との関連性は、統制語毎に当該統制語が付されている全ての文献情報群の題目と要旨に出現する語と、全文献情報群のそれらに出現する語の頻度情報を基にして取得している。ベクトル空間モデルを用いた自然言語処理を行う際に問題となるベクトルの高次元性と多義語・類義語の存在に対し、ステミングのほか、忌避語、頻出語、及び希少出現語の削除、特異値分解を行っている。クラスタリングアルゴリズムは、階層的クラスタリングについては群間平均法を、非階層的クラスタリングについてはbuckshotアルゴリズムを基にして並列化等の改良を施したk-meansを用いている。

 クラスタリング結果は、階層的クラスタリングについてはデンドログラム、非階層的クラスタリングについては2次元平面上への各文献情報を点とする描画と、より詳細な情報が得られる表により提示される。2次元平面上への描画を行う際に必要となる各点の座標は主成分分析により取得している。階層的・非階層的クラスタリングいずれの結果に対しても、クラスタ毎にクラスタラベル、複合語を含む関連語が表示され、非階層クラスタリング結果については、クラスタ毎に特徴的な文を当該クラスタに含まれる文献情報から抽出して表示する。

 本システムの有効性の評価を、クラスタリングの有効性、及び統制語を与えることによるクラスタリング結果への影響の点から行った。さらに既存類似手法との比較、及び複数のケーススタディについて議論した。

審査要旨 要旨を表示する

 本研究は、利用者の興味とは無関係に検索結果を表示していた従来の静的な文献検索システムに対して、利用者の視点を検索結果の文献集合の動的なクラスタリングとクラスに対するラベル付けに反映する文献検索システムを提案し、そのために必要な基礎技術、および、それらを統合した生命科学のための文献検索システムを実際に開発したものである。実ユーザとの緊密な共同研究を行うとともに、利用者の視点を意味空間に反映する独自性の高い基礎技術を開発している。

 論文は、以下の7つの章から構成されている。

 第1章では、生物・医学の文献情報の急激な増加にともない、知的な文献検索システムが不可欠となっている背景を簡潔に整理し、既存の文献検索システムの欠陥、特に、MeSHターム(領域固有統制語)による絞込みという静的な手法では、潜在的に有用な情報を落とす可能性を指摘し、この問題の対処には、利用者の視点を検索時点で動的に反映できるシステムが不可欠であることを指摘して、本論文の研究背景とその意義を述べている。

 第2章では、テキストクラスタリングの従来手法を概観し、利用者との対話によって、クラスタリングを動的に変更する試みがないこと、また、クラスタリング結果を利用者に理解可能な形で提示する手法、すなわち、クラスのラベル付けの技術が十分でないことを指摘し、これらが本研究の目指す動的な情報検索の基本技術となることを指摘している。

 第3章では、生命科学における知的情報検索の研究を行う上で、各種の資源が整備されてきていること、とくに、米国NLMで開発されているPubMed/MEDLINE、文献情報中の語を正規化するための領域固有辞書UMLS LEXICON、利用者の視点やクラスタ概念を表現するための領域固有シソーラスであるUMLS Semantic NetとMeSHタームが、本研究の主要な資源となっていることを説明し、それぞれの特質とそれらが本研究で果たす役割とを詳述している。

 第4章は、本研究での主要課題である利用者の視点を反映したクラスタリングの実現手法を系統的に展開している章である。既存手法、すなわち、ベクトル空間モデルの利用や、群間平均法による階層的クラスタリング、及び並列化buckshotアルゴリズムによるk-meansを利用した非階層的クラスタリング等を基本とし、本研究の独創である利用者の視点を表すMeSHタームを意味空間の変換に活用する手法を定義している。また、この種の対話を前提とした文献検索システムの評価の難しさを議論し、本研究で用いた定量的・定性的評価の方法を詳述している。

 第5章は、本研究での要素手法が統合された全体システムの構成、および、第4章で定義した評価手法を適用することで得た評価結果を報告している。文献情報の処理方針(領域固有辞書の利用の有無等)と処理対象に関する条件を設定し、クラスタリングの効果、クラスタ・ラベルの効用、および、利用者視点がクラスタリング結果に及ぼす影響度合いの3項目について、定量的評価を行っている。その結果、1) 領域固有辞書の利用、2) 取得文献情報中の頻出語と低頻度語の削除が文献検索に及ぼす効果を定量化し、第3章で導入した言語資源が非常に有効であったことを確認している。

 また、定性的評価については、関連研究との比較を行い、生成されるクラスタの特徴を示す概念ラベルが内容理解の容易さの向上に大きく寄与することを確認し、生命科学者とともに具体的事例に基づく評価を行っている。これは、類似研究には見られない大きな成果で、文献情報を複数視点からクラスタリングすること、また、クラスタリングを対話過程で動的に変化させることの有効性が、実際の利用者により確認されたことは、本研究の大きな成果である。

 第6章は、本研究は、MeSHタームの使用、論文抄録など、さまざまな条件が固定された中でのシステム開発という側面もつ反面、開発された手法は、これらの特殊条件に依存しない一般性を持つものであることを議論している。特に、本研究で中心的な役割を果たしたMeshタームは、任意のオントロジーに置換可能であり、本研究が、文献検索と知識処理との融合の一つの形態を示していることを指摘している。

 第7章は、本研究の貢献を、1) 文献検索結果の概観取得をクラスタリングで行う統合的な対話型検索システムで実現したこと、2) 利用者の視点をクラスタリングに反映させる手法を開発したこと、3) クラスタに既存オントロジーを用いてラベル付けを行う手法を開発したこと、の3点に簡潔に整理し、フルペーパーの処理、文脈解析、クラスタリングの高速化など、今後の研究課題を整理している。

 以上のように、本論文は、利用者視点を意味空間の変換で実現する文献クラスタリングの手法、および、既存オントロジーによるクラスのラベルづけ手法という、対話型の文献検索システムのための独創的な手法を提案するとともに、その有効性を統合システムの開発で実証したものであり、審査委員会は、その独創性。有効性は、博士号に十分値するものと判断した。

UTokyo Repositoryリンク