学位論文要旨



No 117808
著者(漢字) 仲尾,由雄
著者(英字)
著者(カナ) ナカオ,ヨシオ
標題(和) 話題階層の検出とテキスト要約への適用に関する研究
標題(洋) Studies on Thematic Hierarchy Detecion and Its Application for Text Summarization
報告番号 117808
報告番号 甲17808
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(理学)
学位記番号 博理第4279号
研究科 理学系研究科
専攻 情報科学専攻
論文審査委員 主査: 東京大学 教授 高木,利久
 東京大学 教授 萩谷,昌己
 東京大学 教授 高野,明彦
 東京大学 助教授 森下,真一
 東京工業大学 助教授 奥村,学
内容要旨 要旨を表示する

 本論文では、テキスト中の話題階層を検出するアルゴリズムと、テキスト要約における話題階層の利用について論じる。本研究で取り扱う話題階層とは、テキストの各部分が何について書かれたものであるかを階層的に表現したテキスト構造である。本稿では、このような話題階層を、語彙の反復による結束性(語彙的結束性)を手がかりとして、自動的に検出する新しいアルゴリズムを提案する。そして、話題階層の2つの利用方法について論じる。一つは、単一テキストに含まれる主要な話題の検出であり、もう一つは、複数テキストに含まれる関連話題の抽出である。

テキスト要約においては、適切な粒度の話題を柔軟に検出する技術が求められる。例えば、計算機上で電子書籍を拾い読みしようとしている利用者に対して、最初に提示する要約としては、主要な話題を幅広く含む簡潔な要約が適当と考えられる。その要約で、利用者が読みたい話題を見つけた場合には、その話題の記述箇所を、より詳細に要約して提示することが適当であろう。

このような場合、話題階層を利用すれば、主要な話題の検出や、より高度な処理の前処理として、指定された話題に対応する適切な大きさの箇所を切り出すことが実現できる可能性がある。

本論文では、テキストから適切な粒度の話題を検出する基礎技術として、語彙的結束性に基づく話題階層検出手法を提案する。提案手法の特徴は、語彙の反復だけを手がかりに、テキストをほぼ同じ大きさの区画に分割する点にある。これにより、テキストに含まれる様々な話題のまとまりを、テキスト全体より少し小さい程度の話題のまとまりから、段落程度の話題のまとまりまで、体系的に検出することができる。提案手法の評価として、3種類の長めの文書を対象に、文書の論理構造と検出結果とを比較したところ、検出した話題階層は、文書の論理構造とよく一致していることが観察された。この結果は、本手法が、様々な粒度の話題を正しく検出できることを示唆していると解釈できる。また、情報検索のテストコレクション用いて評価実験を行ったところ、話題階層に基づき検出した重要語は、少なくとも、新聞記事のリードパラグラフに含まれる重要語と同等以上に、検索結果の関連性判定作業を支援する上で有用であることが示された。これらの結果は、話題階層の利用により、適切な話題を幅広く抽出する上で有効なことを示唆すると解釈できる。

 本論文では、また、複数の関連文書から関連箇所を抽出する手法を提案する。比較する文書対のそれぞれについて検出した話題階層を、各層を構成するテキスト区画を単位に比較し、関連度の高い区画の対を抽出する手法である。この手法は、抽出区画対の対応関係の正しさ、抽出話題の網羅性・簡潔性、および、主要な話題のカバー率という3つの観点から評価した。国会における代表質問と答弁を使った実験では、抽出区画対の約8割が正しく同一の話題に対応し、また、新聞に要旨として掲載された内容の約6割は抽出された関連箇所の対から読み取れることがわかった。この結果は、複数の話題が混在する文書同士を比較し、話題の関連する箇所を見いだす上で、話題階層の利用が有効なことを示唆すると解釈できる。

審査要旨 要旨を表示する

 本論文は5章からなる。第1章では研究の背景と目的が述べられている。ここでは、テキスト中の話題階層を検出する手法が取り上げられ、それをテキスト要約問題や複数テキストに含まれる関連話題の抽出問題に応用することの有用性について論じられている。なお、本研究で取り扱う話題階層とは、テキストの各部分が何について書かれたものかを階層的に表現したテキスト構造を意味する。第2章では、語彙的結束性に基づく話題階層検出手法が提案されている。この手法の特徴は、語彙の反復を手がかりに、ほぼ同じ大きさの話題に関する境界を検出できる点にあり、この性質により、テキストに含まれる様々な大きさの話題のまとまりを体系的に検出することが可能となる点にある。第2章ではさらに、この提案手法を3種類の性質の異なる文書に適用し、文書の論理構造と検出結果とを比較することにより、本手法で検出された話題階層が文書の論理構造とよく一致していることを確かめている。これにより、提案手法が、様々な粒度の話題を正しく検出できることの可能性を示している。第3章では話題階層を利用した、単一テキストの自動要約手法が提案されている。この手法は、長い文書の概要把握支援のために、話題を幅広く含む要約を作成することを想定しており、抽出話題数に応じたテキストの分割の仕方を、話題階層を利用して求めていることに特徴がある。人間による要約結果と比較することにより、話題階層の利用が単一テキストの自動要約に有効であることを示唆している。第4章では、複数の関連文書から関連箇所を抽出する手法が提案されている。本手法の特徴は、話題階層を利用して様々な大きさの話題区画を体系的に比較している点と、関連話題抽出用の閾値を話題階層に基づき自動設定している点にある。本章ではさらに提案手法を国会における代表質問と答弁との間の関連性を調べるという問題に適用し、その結果を、抽出区画対の対応関係の正しさ、抽出話題の網羅性・簡潔性、および、主要な話題のカバー率という3つの観点から評価することにより、複数文書からの関連話題抽出において、話題階層の利用が確かに有効であることを示している。第5章では本研究の結論、すなわち、話題階層は、適切な話題を幅広く抽出する上で有用であること、また、話題階層を利用して、様々な粒度の話題を体系的に比較することで、効率的に関連話題が抽出できることなどが述べられている。

 本論文に述べられた研究成果は、情報科学その中でもとくにテキストからの話題検出や要約作成などに関する研究の進展に大きく寄与するものである。テキストの要約や複数テキストに含まれる関連話題の抽出などに関する情報技術への需要は、近年のインターネットの普及などによる電子文書や電子書籍の爆発的増大に伴って急速に高まっており、本研究の意義は学問的だけでなく社会的および産業的にも大変大きいと言える。一般にこの種の問題は、正解そのものに曖昧性があり、提案手法の有効性を正しく評価することはなかなか困難である。しかしながら、本研究では評価手法それ自体の有効性に関してもさまざまな観点から考察を加え、評価結果にある種の客観性を与えることに成功している。また、語彙の反復だけを手がかりにした手法でどこまで様々な大きさの話題を体系的に検出できるかという点に問題を限定して研究を展開することにより、このような手法の有効性、応用性とその限界とを明確にすることに成功している。このような観点からも本研究の成果はテキストからの話題検出や要約作成などに関する研究の今後の進展に大いに貢献するものと期待される。

 したがって、博士(理学)を授与できると認める。

UTokyo Repositoryリンク