本研究は、ますます多様で多量となりつつある医学知識を自然言語資源から自動的に抽出するための方法論の開発として、 1.医学・医療情報における自然言語の特徴の分析、 2.自然言語をコンピュータ上で扱うための技術である自然言語処理を用いて、医学・医療情報の中の自然言語から特定の種類の情報を取り出すための方法論ならびにプロトタイプシステムの開発、 3.方法論の評価ならびにこの分野の課題の特定 を行なったものであり、下記の結果を得ている。 1.医学・医療の情報に特化した形態素解析プログラム、形態素辞書、語抽出プログラム等の、医学・医療情報の中の自然言語(日本語)を扱うための環境の整備を行なう過程において、形態素抽出、語抽出等の基本的な自然言語処理手法を医学領域に応用するために適した方法を提案し、実装した。形態素解析においては、名詞細分類に症状や疾患や部位等の医学的な意味をもつものを追加し、自然言語処理系でよく用いられるプログラムの規則の変更によって実装を行なった。また、語抽出においては医学的な情報を抽出するために役立てるという観点から、数量語、助動詞的動詞語、名詞間接続語、節間接続語等の品詞を追加した他、名詞語の医学的な意味付けのためのアルゴリズムを提案し、実装した。検証の結果、名詞語の抽出についてはrecallが97.6%、precisionが93.8%であったが、名詞語の意味付けについては明らかな改善の余地があった。本研究の名詞語抽出の方法は医学的見地から妥当であると考えられるが、語の意味付けに関しては、すでに存在する用語集の分析などを通じてより検討を要する。 2.電子化内科学教科書の臨床的特徴のセクション(8617文)において動詞の分析を行ない、1473種類の動詞語を検出した。これらの動詞語は、臨床的特徴の記述に関する限り、必要な動詞語をほぼ網羅していると考えられる。これらの動詞語のおよそ半数(733種類)が動詞使用例の95%を占めていた。また、出現回数が上位の動詞語には症状の記述に関係する動詞が多かった。 3.臨床症状の記述にとって重要な症状-部位関係が特定の品詞あるいは意味を持つ語の並びによって表現されるかどうかを電子化内科学教科書中の感染症疾患についての記述(958文)に関して、臨床的特徴のセクションを対象に分析した。その結果、部位語と症状語との関連が表現されていると判定された文の86%では、同じ節の中でその関係が表現されていた。また、「部位語+『の』+症状語+助詞+動詞」「部位語+助詞+症状語+助詞+動詞」「症状語+助詞+部位語+助詞+述語」というパターンで表現されている語列の87%では、それらの語列中の症状語と部位語との間に症状-部位関係が見出された。 4.電子化内科学教科書の臨床的特徴のセクションにおいて、文中の修飾語句に注目し、被修飾語に対してどのような関係にあるかを分析した。特に、被修飾語の記述が真であるための条件として機能する修飾語句を重視した。そのような修飾語句の末尾によくみられる表現を「手がかり表現」とよび、手作業で収集し、それを用いて条件等の修飾語句の収集を行なった。その結果、条件をあらわす部分の末尾を90%のrecallならびに79%のprecisionで特定することができた。 5.上の1,2,3の成果をもとにして、症状-部位関係の情報を抽出するプログラムを作成した。このプログラムは症状句、部位句、動詞とそれらの間の助詞から構成される合計6種類のパターンを検出することができる。検証の結果このプログラムは感染症疾患の臨床的特徴のセクションに含まれる958文から選ばれた96文中に含まれる合計6個のパターンのうち5個を検出し、それ以外のパターンは検出しなかった。 以上、本研究はこれらの成果を通して、情報抽出の基礎となる自然言語処理技術の中には医学領域に適応した方法をとることができるものもあることを示した。また、症状-部位関係を例として、医学的知識が定型的な日本語表現で表現されることが多いことを示し、その性質を利用した症状-部位関係についての知識の抽出を行なった。本研究はこれまで未知に等しかった、医学・医療情報の自然言語を有効な情報資源として利用するための基礎的知見を提供したと考えられ、学位の授与に値するものと考えられる。 |