学位論文要旨



No 120535
著者(漢字) 鍜治,伸裕
著者(英字)
著者(カナ) カジ,ノブヒロ
標題(和) 書き言葉から話し言葉への言い換え
標題(洋) Paraphrasing Written Language to Spoken Language
報告番号 120535
報告番号 甲20535
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第48号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 助教授 峯松,信明
 東京大学 助教授 黒橋,禎夫
 東京大学 教授 安達,淳
 東京大学 教授 中川,裕志
 東京大学 教授 坂井,修一
 東京大学 助教授 苗村,健
内容要旨 要旨を表示する

本文:

言い換えとはある意味内容を別の形式で表現したものである。言い換えを計算機で取り扱うことは自然言語処理にとって非常に大きな挑戦である。自然言語処理において言い換えが注目されている最大の要因は、言い換えと言語理解は密接にかかわりあっているからである。もちろん、我々は言語理解というものを明確に定義できていない。しかし、例えば、計算機が言い換え表現を認識し、そしてテキストを自由に言い換えることができたとすれば、その計算機は言語を理解しているといっても差し支えないだろう。

本論文では、書き言葉から話し言葉への言い換えを議論する。話し言葉への言い換え処理は、工学的な立場から見れば、音声合成の前処理として非常に有効である。書き言葉と話し言葉の間には、様々な相違点が存在する。たとえば、難解な単語は書き言葉ではよく使われる一方、話し言葉では敬遠される傾向がある。そのため、音声合成のアクセントやイントネーションがどれほど自然なものであったとしても、読み上げられるテキスト自体が書き言葉的な場合、自然な音声を生成することは不可能である。しかし、本論文で提案する言い換えを音声合成の前処理として利用すれば、上記の問題を解消することができる。

このような言い換え処理を計算機上で実現するためには、次のような手順を踏む必要がある。まず、入力テキスト中の、話し言葉として不適格な表現を認識しなくてはならない。次に、その表現の言い換え表現を自動生成する必要がある。そして、最後に、生成された言い換えが話し言葉として適格であるかどうかを判定しなくてはならない。もし、生成された言い換えが不適格であると判断された場合は、再度、別の言い換え表現を生成するか、もしくはその表現を言い換えることを諦めるかを選択する。この一連の手続きを実現するためには、次の二つの処理が必要となる。まず、言い換え表現を自動生成できなくてはならない。そして、どの表現が話し言葉として適格であるかを選定しなくてはならない。

本論文では、以下のような言い換え生成手法を提案する。まず、言い換え表現は国語辞典をもとにして自動生成する。国語辞典とは、見出し語の意味を定義文で説明したものなので、基本的には、定義文には見出し語の言い換えが含まれていると考えることができる。

もちろんそのような手続きを計算機上で実現することは容易ではない。まず単語の多義性が問題となる。たとえば、Aという単語が二つの語義A1とA2をもっていて、それぞれの語義に対応した言い換えBとCが存在する状況を考える。この場合、Aという単語を言い換えるためには、当該の文脈においてAがどちらの語義で使用されているかを判定しなくてはならない。さらに、とくに用言を言い換え対象とするばあい、構文構造も変換しなくてはならない場合もある。また、定義文から見出し語の言い換えに相当する部分だけを自動抽出する必要もある。

もうひとつの問題は単語の特殊な用法である。たとえば、動詞は通常動作や状態などを表すが、中には副詞や機能語と同等の働きをするものが存在する。また、一般的に句の構成要素には構成性が成立するが、例外も存在する。本論文では、国語辞典を用いることによって、こうした特殊な用法を判定し、さらにその言い換えを生成することができることを示す。

言い換えの生成に加えて、本論文では単語選択に関する議論も行う。ここでいう単語選択とは、ある単語が話し言葉として適格であるか不適格であるかを判定する処理をさす。基本的なアイデアは、単語の書き言葉コーパスと話し言葉コーパスにおける出現確率を使うというものである。両コーパスは、WWWから自動構築した大規模なものを利用する。これら二つの確率が話し言葉として適格であるかどうかを反映した数値であることは、直感的に納得できる。さらに、本論文では、話題が単語選択に与える影響についても考慮した手法を提案する。提案手法は、WWWから収集した書き言葉コーパスと話し言葉コーパスを話題ごとに分割しておく。そして、入力文と同じ話題に関して記述されているコーパスをもちいて確率を推定する。

そして最後に、これらの言い換え技術の応用例について報告する。応用対象は、テキストからプレゼンテーションの自動生成システム(Text-To-Presentation System, TTPS)である。TTPSとは、入力テキストから、スライドと読み上げ音声を自動生成するシステムである。上で議論された言い換え技術は、読み上げ音声合成モジュールの中に組み込まれた。

審査要旨 要旨を表示する

 本論文は、「Paraphrasing Written Language to Spoken Language」(書き言葉から話し言葉への言い換え)と題し、計算機による言語の理解を目指す研究の一課題として言語の言い換えの問題に着目し、国語辞典と大規模コーパスを使いこなすことにより書き言葉から話し言葉への自動変換を実現する手法について論じたものであり、6章から構成されている。

 第1章は「Introduction」(緒言)であり、言語の言い換えという技術の自然言語処理研究における位置付けについて議論し、またその一つの方向性として、書き言葉から話し言葉への言い換えの重要性を指摘するとともに、書き言葉、話し言葉それぞれの特徴を議論し、さらに本論文で提案する書き言葉話し言葉変換の枠組みを示している。

 第2章は「Paraphrasing Predicates」(用言の言い換え)と題し、国語辞典を用いて用言の言い換えを自動生成する手法を提案している。国語辞典は、見出し語の意味を言語で説明したものであり、見出し語のより簡易な言い換え表現となっている。しかし、国語辞典に基づく言い換えを実現するためには、語の定義が複数ある場合の扱い、すなわち多義性の解消が必要となり、さらに、用言の格パターンの適切な変換、定義文中からの言い換え表現の選択などを行わなければならない。これらの問題を解決するために、大規模コーパスから自動学習した格フレームを利用し、見出し語の格フレームと定義文主辞の格フレームの対応付けを行うことにより、言い換えパターンを自動学習する方法を考案し、実験によってその有効性を示した。

 第3章は「Periphrastic and Overlapping VP」(迂言用言句と重複用言句)と題し、用言の言い換えにおいて問題となる、特殊な用言句の取り扱いを議論している。用言は通常、動作や状態などを表すが、中には副詞や機能語と同等の働きをするものが存在する。また、一般的に句の構成要素には構成性の原理が成立するが、それが成り立たない意味的に重複する表現も存在する。国語辞典を用いることによって、このような特殊な用言句を自動的に判定し、さらにより簡潔な表現に言い換えを行う方法を提案し、実験によってその手法の有効性を確認した。

 第4章は「Lexical Choice via Topic Adaptation」(話題適応による単語選択)と題し、ある単語が話し言葉として適格であるか不適格であるかの自動判定を行う手法を提案している。基本的なアイデアは、単語の書き言葉コーパスと話し言葉コーパスにおける出現確率を使うというものである。書き言葉コーパスおよび話し言葉コーパスは、待遇表現と丁寧表現を基にWWWを自動分別したのを利用する。さらに、文章の話題が、単語選択に与える影響についても考慮した手法を提案する。すなわち、WWWから収集した書き言葉コーパスと話し言葉コーパスを話題ごとに分割し、入力文と同じ話題に関して記述されているコーパスを用いて語彙選択を行う。実験によってこのような手法の有効性を示した。

 第5章は「Application to Text To Presentation」(テキスト自動プレゼンテーションへの応用)と題し、ここまでに提案してきた言い換え技術の応用例について報告している。応用対象は、テキストからプレゼンテーションを自動生成するシステム(Text-To-Presentation System, TTPS)である。ここでは、入力テキストからスライドを自動生成するとともに、書き言葉話し言葉変換によって読み上げ音声を自動生成する。基礎的な評価実験を行い、書き言葉話し言葉変換がこのシステムにおいて有効に機能していることを確認した。

 第6章「Conclusion」(結論)では、本論文の主たる成果をまとめるとともに、今後の課題と展開について述べている。

 以上を要するに、本論文は、計算機による言語理解を目指す研究としての言い換え技術の重要性について論じ、書き言葉から話し言葉への自動変換を実現するために、国語辞典と大規模コーパスを利用するいくつかの新しい手法を示すとともに、考案した手法をテキストの自動プレゼンテーションシステムとして統合し、実験によって有効性の確認を行ったものであり、電子情報学上貢献するところが少なくない。

 よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク