学位論文要旨



No 113642
著者(漢字) 日紫喜,光良
著者(英字)
著者(カナ) ヒシキ,テルヨシ
標題(和) 自然言語処理によって内科教科書から疾患・症状関連知識を抽出する研究
標題(洋)
報告番号 113642
報告番号 甲13642
学位授与日 1998.03.30
学位種別 課程博士
学位種類 博士(医学)
学位記番号 博医第1303号
研究科 医学系研究科
専攻 社会医学専攻
論文審査委員 主査: 東京大学 教授 大橋,靖雄
 東京大学 教授 辻井,潤一
 東京大学 助教授 橋本,修二
 東京大学 助教授 真鍋,重夫
 東京大学 助教授 横山,和仁
内容要旨 1.背景と目的

 今日、コンピュータに蓄積された医学文献の量は莫大なものになっている。これらのデータの多くは、自然言語によって記述されている。しかし日本語の医学・医療文書からの情報抽出はまだほとんど行われていない。従って、情報抽出が行なえるために必要な性質が対象となる文書の文あるいは文章に備わっているか、また、日本語で書かれたそれらの文書から情報抽出がどの程度可能であるかを探究することは意義がある。さらに、医学・医療情報の分野での自然言語処理研究の基礎として、自然言語処理の分野でよく用いられているツールの特徴と限界を明らかにし、医学・医療情報向けにカスタマイズしたり、不足している機能を補うことも現在の重要な課題である。本研究の目的は、第一には医学・医療情報における自然言語の特徴の分析、第二には自然言語をコンピュータ上で扱うための技術である自然言語処理を用いて、医学・医療情報の中の自然言語から特定の種類の情報を取り出すための方法論ならびにプロトタイプシステムの開発、そして第三にはこれらを通じて方法論を評価し、この分野の課題を明らかにすることである。

2.医学・医療分野の自然言語処理環境の整備1)形態素解析プログラムの医学・医療分野への特化

 まず、自然言語処理の分野で形態素解析のために広く用いられているプログラム(JUMAN)を、医学・医療領域へ特化させるための改良を行なった。形態素解析プログラムが用いる文法等の規則を変更し、診断名・症状・人体部位等の医学的な意味を持った名詞細分類を定義した。また、大規模な病名集を用いて、診断名・人体部位の名称等を表現するための医学用語形態素辞書を追加した。

2)語抽出プログラムの作成

 次に、形態素をまとめて語を抽出するプログラムを開発した。開発にあたっては情報抽出を指向した新たな品詞分類を設定した。また、語の成り立ちを先頭部分、中間部分、末尾部分に分け、それぞれに出現してもよい形態素の種類や文字列の規則を定義し、その規則に従って隣接する形態素をまとめて語を認識する方式を考案し実装した。これによって、「出血する」という文字列は形態素解析の段階では「出血」という名詞と「する」という動詞に分けられているのが、語抽出の結果「出血する」というひとつの動詞語として抽出されるようになった。

 感染症疾患の臨床的特徴セクションの一部の文を用いて、各品詞の語が正しく抽出されているか、また特に名詞語に関しては医学的意味づけが正しいかどうかを調べ、recall=(抽出個数-誤抽出数)/真の個数、ならびにprecision=(抽出個数-誤抽出数)/抽出個数を計算した。その結果、名詞を抽出するrecallが97.6%、precisionが93.8%であった。一方、名詞のより詳細な意味付けのrecallは、症状については88%、部位については50%だった。

3.医学教科書の文における知識と表現との関係の分析1)対象

 ある電子化内科教科書において、計942個の疾患の臨床的特徴について記述した8617文を分析の材料に用いた。このうちすべての文を、動詞形態素ならびに動詞語の種類と頻度の分析に用いた。また、感染症疾患(疾患数91)の臨床的特徴について記述した958文を、症状語、部位語、助詞、動詞語から成り、症状・部位関係の知識を表すパターンの分析に用いた。

2)分析方法

 動詞形態素の種類と頻度の分析に関しては、形態素解析を行なったあとで、まず、動詞形態素の数を500文ごとに数え、新たに出現する動詞形態素の種類数が漸減する傾向を調べた。次に動詞形態素の頻度順の累積出現回数を調べ、動詞形態素の出現回数の95%をみたすには何種類の動詞形態素が必要かを調べた。同様の分析を動詞語についても行なった。

 一方、症状語、部位語、助詞、動詞語から成り、症状・部位関係の知識を表す表現パターンの分析においては、(1)症状語と部位語とが同じ節(文の構成単位で、動詞等の述語を1つ持つもの)に存在するかどうか、(2)症状語または部位語に後続する助詞は何か、という視点から分析を行なった。

3)結果

 内科学教科書において動詞形態素の種類数は、750種類程度、動詞語では1480種類程度であった。しかし、動詞形態素では出現頻度上位215位までの動詞形態素が、動詞語では413位までの動詞語が、それぞれ全動詞形態素または全動詞語の出現回数の95%を占めていた。動詞形態素でもっとも出現回数が多い動詞形態素は「する」で、全動詞形態素出現回数の15%、動詞語では「みられる」で、全動詞語出現回数の5%であった。

 また、症状と部位との関係を表す文の86%において同じ節の中でその関係が表現されていた。さらに、同じ節の中に存在する症状ならびに部位の後に適切な助詞が後続する場合、87%にそれらの間に関係が存在していた。

4.医学・医療文書からの情報抽出1)方法

 まず、形態素解析の結果の中で特定の種類の情報が含まれる範囲の限定を行なうプログラムを作成した。このプログラムは「〜の場合には」「(疾患名)では」「〜の時は」など、文中の複数の意味的まとまりの間の関係を表現するための表層パターン(文字列、品詞情報、意味情報等を並べてできるパターンのことを表層パターンと呼ぶことにする)を用いて、特定の種類の情報が含まれる範囲の末尾を見つける(以下ではこのような表層パターンを「手がかり表現」と呼ぶことにする)。プログラムは2種類作られ、第一のものは文中の他の部分に対して条件あるいは部位の関係にある部分の末尾を発見し、第二のものは時間表現等の末尾を発見するために作成された。

 次に、3.で得た知見をもとに、特定の医学的概念と密接に関係すると考えられるような表層パターンを「概念パターン」と名付け、人工言語的な形式で定義した。症状と部位との関係をあらわす概念パターンを3種類定義し、それらのパターンを語抽出の結果から探索するプログラムを作成した。

2)検証

 「手がかり表現」を用いて特定の情報が含まれる範囲の限定を行なうプログラムの検証においては、第一のプログラムの検証には電子化内科教科書の一部の疾患についての記述から臨床的特徴のセクションを取り出して得られた126疾患、357文の記述を、第二のプログラムの検証には東大病院の総合内科外来の初診時記録(カルテ)から選られたおよそ40人の患者についての207文を、それぞれ対象として用いた。そして、対象から手作業で手がかり表現の検出を行い、検出プログラムの出力と比較した。手がかり表現のプログラムによる検出個所数、誤検出個所数、見逃し個所数を数えて、再現率(recall)=(検出個所数-誤検出個所数)/真の個所数、ならびに正確度(precision)=(検出個所数-誤検出個所数) 検出個所数を計算した。

 次に、症状と部位との関係についての情報を抽出するプログラムの検証では、感染症の臨床的特徴についての記述(91疾患、958文)からランダムにサンプル文を合計96文採取して対象とし、取り出されるべき概念パターンが対象から正しく取り出されるかどうかを調べた。

3)結果

 「手がかり表現」を用いた特定の情報が含まれる範囲の限定においては、医学教科書において条件をあらわす手がかり表現についてはrecallが90%でprecisionが79%、部位を表す手がかり表現についてはrecallが93%でprecisionが86%であった。カルテ文においては、時間表現の抽出のrecallが89%、precisionが96%であった。

 また、症状と部位との関係についての情報を抽出するプログラムは、対象から取り出すべきすべてのパターンを検出し、症状ならびに部位の情報をほぼ正しく抽出した。

5.考察

 本研究によって、概念または概念間の関係は表層的なパターン(文字列あるいは語・形態素の意味情報で構成されるパターン)と密接に関係していることが示された。また、これまで日本語の医学・医療文書から症状とその部位というような有用な知識を抽出した例はなかったが、本研究によってその可能性が示された。

 その過程において、一般に用いられている日本語形態素解析プログラムを医学・医療文書の領域に特化させ、この領域での意味付けに活用した。また、複数の形態素をまとめて語を形成し、医学的な意味付けも行なうプログラムを作成し、名詞の認識において高成績を得た。また、情報抽出において句や節の実用的な認識を容易にするために「助動詞的動詞」「名詞間接続語」「節間接続語」といった新たな品詞を導入した。

 本研究で開発した手法のいくつかは、大量の医療・医学的文書を用いた医学用語体系の検証や語彙の獲得、あるいは概念間の関連の獲得のような情報抽出以外の用途にも有益であると考えられる。

6.結論

 本研究においては、

 1.医学・医療の情報に特化した形態素解析プログラム、形態素辞書、語抽出プログラム等の、医学・医療情報の中の自然言語(日本語)を扱うための環境が整備された。

 2.自然言語によって症状・部位関係を記述する際、表現には一定のパターンがあることが示された。

 3.1,2,の成果をもとにして、症状・部位関係の情報を抽出するプログラムを作成し、検証した。

 本研究は医学・医療情報の自然言語を情報資源として活用するための基礎的知見を提供したと考えられる。その知見は電子カルテに不可欠な、自由文の入力支援ユーザーインターフェースにも欠かせないと考える。

審査要旨

 本研究は、ますます多様で多量となりつつある医学知識を自然言語資源から自動的に抽出するための方法論の開発として、

 1.医学・医療情報における自然言語の特徴の分析、

 2.自然言語をコンピュータ上で扱うための技術である自然言語処理を用いて、医学・医療情報の中の自然言語から特定の種類の情報を取り出すための方法論ならびにプロトタイプシステムの開発、

 3.方法論の評価ならびにこの分野の課題の特定

 を行なったものであり、下記の結果を得ている。

 1.医学・医療の情報に特化した形態素解析プログラム、形態素辞書、語抽出プログラム等の、医学・医療情報の中の自然言語(日本語)を扱うための環境の整備を行なう過程において、形態素抽出、語抽出等の基本的な自然言語処理手法を医学領域に応用するために適した方法を提案し、実装した。形態素解析においては、名詞細分類に症状や疾患や部位等の医学的な意味をもつものを追加し、自然言語処理系でよく用いられるプログラムの規則の変更によって実装を行なった。また、語抽出においては医学的な情報を抽出するために役立てるという観点から、数量語、助動詞的動詞語、名詞間接続語、節間接続語等の品詞を追加した他、名詞語の医学的な意味付けのためのアルゴリズムを提案し、実装した。検証の結果、名詞語の抽出についてはrecallが97.6%、precisionが93.8%であったが、名詞語の意味付けについては明らかな改善の余地があった。本研究の名詞語抽出の方法は医学的見地から妥当であると考えられるが、語の意味付けに関しては、すでに存在する用語集の分析などを通じてより検討を要する。

 2.電子化内科学教科書の臨床的特徴のセクション(8617文)において動詞の分析を行ない、1473種類の動詞語を検出した。これらの動詞語は、臨床的特徴の記述に関する限り、必要な動詞語をほぼ網羅していると考えられる。これらの動詞語のおよそ半数(733種類)が動詞使用例の95%を占めていた。また、出現回数が上位の動詞語には症状の記述に関係する動詞が多かった。

 3.臨床症状の記述にとって重要な症状-部位関係が特定の品詞あるいは意味を持つ語の並びによって表現されるかどうかを電子化内科学教科書中の感染症疾患についての記述(958文)に関して、臨床的特徴のセクションを対象に分析した。その結果、部位語と症状語との関連が表現されていると判定された文の86%では、同じ節の中でその関係が表現されていた。また、「部位語+『の』+症状語+助詞+動詞」「部位語+助詞+症状語+助詞+動詞」「症状語+助詞+部位語+助詞+述語」というパターンで表現されている語列の87%では、それらの語列中の症状語と部位語との間に症状-部位関係が見出された。

 4.電子化内科学教科書の臨床的特徴のセクションにおいて、文中の修飾語句に注目し、被修飾語に対してどのような関係にあるかを分析した。特に、被修飾語の記述が真であるための条件として機能する修飾語句を重視した。そのような修飾語句の末尾によくみられる表現を「手がかり表現」とよび、手作業で収集し、それを用いて条件等の修飾語句の収集を行なった。その結果、条件をあらわす部分の末尾を90%のrecallならびに79%のprecisionで特定することができた。

 5.上の1,2,3の成果をもとにして、症状-部位関係の情報を抽出するプログラムを作成した。このプログラムは症状句、部位句、動詞とそれらの間の助詞から構成される合計6種類のパターンを検出することができる。検証の結果このプログラムは感染症疾患の臨床的特徴のセクションに含まれる958文から選ばれた96文中に含まれる合計6個のパターンのうち5個を検出し、それ以外のパターンは検出しなかった。

 以上、本研究はこれらの成果を通して、情報抽出の基礎となる自然言語処理技術の中には医学領域に適応した方法をとることができるものもあることを示した。また、症状-部位関係を例として、医学的知識が定型的な日本語表現で表現されることが多いことを示し、その性質を利用した症状-部位関係についての知識の抽出を行なった。本研究はこれまで未知に等しかった、医学・医療情報の自然言語を有効な情報資源として利用するための基礎的知見を提供したと考えられ、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク