学位論文要旨



No 211927
著者(漢字) 大平,栄二
著者(英字)
著者(カナ) オオヒラ,エイジ
標題(和) 話し言葉による対話文理解のための韻律情報ならびに文脈や背景知識の利用技術に関する基礎的研究
標題(洋)
報告番号 211927
報告番号 乙11927
学位授与日 1994.09.22
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第11927号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 渕,一博
 東京大学 教授 水町,守志
 東京大学 教授 羽鳥,光俊
 東京大学 教授 原島,博
 東京大学 助教授 相田,仁
内容要旨

 近年の計算機の高速化、パーソナル化に伴い、計算機がより身近なものとなってきた。しかしながら、だれもが気軽に利用できる計算機の利用環境を実現するためには、我々が日常コミュニケーション手段として用いている音声によるインタフェースが必要である。音声を利用して、人間と計算機が人間同士のように対話できれば、誰もが計算機のもつ大規模な情報や高速な計算能力を享受することが可能になる。

 このような背景の基、音声や自然言語の認識理解の研究が進められている。しかし、これらの研究の多くは、書き言葉を対象としている。我々が日常用いている音声による対話は話し言葉による対話であり、書き言葉とは色々異なった特徴を有する。一般に、書き言葉は論理性が重視される言葉である。このため、文の文法的な整合性、論旨の一貫性などが求められる。しかし、一部の特殊なフォーマルな対話を除けば、話し言葉では柔軟性が要求される。すなわち、言い間違えば言い直せばよいし、前に言ったことがおかしければ訂正すればよい。また、話した内容に不足があれば、情報を追加する発話を行うと言う立場である。フォーマルな席で疲れるのは、この会話の柔軟性の利点が奪われるためである。また、話し言葉のもう一つの特徴として、発話が音響的にも文法的にも曖昧になることがあげられる。例えば、話し言葉では文が短くなる傾向があり、文脈や常識に基づく多くの省略がなされる。本研究の目的は、話し言葉により問い合わせ(あるいは応答)可能な情報システムにおけるマンマシンインタフェースの実現を目的としている。すなわち、機械と人間が人間同士のような対話により、検索などを行うことを可能にする対話処理の実現を目的としている。

 このような対話を実現するためには、話し言葉の持つ会話性のよさを失わない柔軟な理解能力を実現する必要がある。話し言葉や書き言葉の理解は解釈問題の1つである。この解釈問題の特徴は、「最終的に得られる結果はただ1つ(実際には曖昧性のため絞りきれないことがある)に限られる」ことである。このため、入力の曖昧性により処理の途中段階(例えば、形態素解析、統語解析など)で生じる数々の解釈(仮説)をいかに効率よく枝刈りしていくかが大きな課題である。話し言葉では、先に述べたように書き言葉に比べで、音響的にも文法的にも曖昧性が増加するため、より効率のよい枝刈りが必要となる。このような話し言葉を、我々が正しく理解し、対話を進めていけるのは、発話者が文字に相当する情報(本論文では、この情報を以下音韻情報と呼ぶ)以外のイントネーションや表情、ジェスチャーといった色々な情報により伝えたい内容を効率よく正確に伝達しているためである。また、話の内容を理解する場合にも、文脈情報や常識などの多くの情報や知識を用いて効率よく理解している。このため、音韻情報以外のイントネーションやジェスチャー、さらに文脈、常識などの色々な情報や知識をも用いて相手の意図を理解していく必要がある。

 従来、このような情報や知識の統合処理を目的として開発された代表的な方式として、Hearsay-IIの黒板モデルとHMM(Hidden Markov Model)がある。前者は、柔軟な知識の統合の枠組みを提供する。後者はマルコフモデルによる一貫した制約の取り扱いを可能にし、効率のよい処理を実現する。しかし、後述するようにどちらの方式も問題があるため、両者を上手く統合して利用する必要がある。HMMは基本的には最適化問題を解く。このため、認識対象の区間とその区間内の構造を規定する必要がある。このため、文節レベルのような文脈自由文法で記述できる範囲の認識への適用が望ましい。しかし、音声などは句読点などで区切られていないため、認識区間を切り出せない。さらに、言い間違いや言いよどみが生じる問題がある。このため、音韻情報のみからでは非常に多くの解釈が生じてしまう。一方、後者の黒板モデルは意味、文脈あるいは常識といった知識を統合する必要のある理解処理への適用が望ましい。しかし、黒板モデルは複数の知識を統合できる枠組みを与えているのみであり、効率のよい知識の利用法を組み入れないと非常に効率が悪い。例えば、話し言葉では文脈や常識に基づき多くの省略がなされる。そして、これが原因で、時には文法的、意味的に正しくない文となる場合がある。このため、この省略を文法や意味、文脈、常識などの各種の知識を用いて補足する必要がある。しかし、補足の対象となる文脈や常識等は非常に多く存在するため、効率のよい知識の適用が重要である。

 本論文は、主に話し言葉の認識・理解における、このような音韻情報の周辺にある、韻律や文脈、常識などの情報の利用方法ならびに利用のための枠組みを提案するものである。

 1章では、自然言語や音声の認識・理解システムの構成ならびに各章の位置づけについて述べる。システム構成を図1に示す。

図1 話し言葉に基づく情報システムの構成

 2章では、音声において文字に相当する音韻情報とともに、伝えたい内容を伝達する上で重要な情報であることが知られている、声の抑揚や強制などの韻律情報の利用法について述べる。韻律情報は、アクセントにより「雨」と「飴」の単語の違いを表現する以外に、文の意味に関係する文の構造を表現するほか、話者の感情や意志、意図などをも表すことが知られている。このうち、文の構造情報は、機械と人間の間の対話で最も重要な入力の認識・理解に直接関係する情報である。このため、ここでは韻律情報から文の構造を推定するための方法を提案する。従来、丁寧に発話された文を対象として、文を文節などに分割するための手段として韻律情報を利用する研究があった。ここでは、さらに自然な会話文の分割をも可能にするとともに、文の構造(係り受け構造)を抽出可能な方式を提案する。これにより、音韻情報からの単語の認識の曖昧性のみでなく、文の構造の曖昧性をも削減できる。

 3章では、聴覚障害者のコミュニケーション言語である手話を対象として、音声の韻律情報に相当する特徴の抽出法ならびにその利用法について述べる。(1)手話は、日本語とは異なる独自の体系を持った言語である。しかし、研究段階の言語であるため、まだ記述言語が存在せず、体系化された文法などがない。このため、日本語等に比べて文法に関する情報を制約として十分に用いることができない。(2)手話は、格助詞が存在しないため、格に基づく意味制約を十分に用いることができない問題がある。このため、パターン認識レベルでの何らかの絞り込みが重要である。ここでは、とくに、手話の動作のリズムに基づく、入力文の単語単位へのセグメンテーション法を提案する。

 4章では、省略や代名詞の補足における文脈情報利用のための対話管理法について述べる。省略や代名詞化は、過去の発話と関連してなされることが多い。対話の場合は、さらに自分の前の発話のみでなく、相手の発話との関連をも認識する必要がある。ここでは、対話を発話とその応答の対(発話対)により捕える管理法を採用した。この管理法は発話間の関連を捕える有効な方式であるが、実際の対話では発話対を構成しない発話が存在するなどの問題がある。ここでは、発話対が新たな質問を生成するという新しい考え方を導入することにより、この問題を解決する。また、互いに独立して動作する4つの対話処理部で対話を処理する構成をとることにより、単純な制御による対話管埋を実現する。

 5章では、解釈を間違った場合にも対話を停止することなく、間違いを修正して対話を続けることが可能な対話管理法の枠組みについて述べる。対話はリズムが重要であり、このためある程度の解釈の曖昧さは、相手に問い合わせることなく、いずれかの解釈が正しいとの仮定のもとに話を先に進める。また、話者は一定の規則に従って省略を行なうが、まれにその規則に従わない場合もある。このような場合、システムは間違った解釈をしてしまう。そして、話が進むにつれて利用者との間で話に矛盾が生じてしまい、それ以上対話を進められなくなる。ここでは、この矛盾の原因をシステムが自動的に検出、解消し、対話を進めることが可能な対話管理を実現するため、仮定に基づいた真理保全機構(ATMS;Assumption based Truth Maintenans System)を導入する。しかし、ATMSを単に導入するのみでは、時間の進行により状態の変化するデータを管理できないなど解決すべき問題がある。ここでは、利用者の発話が入力される度に形成される世界(対話の世界と呼ぶ)を想定することにより、上記問題を解決し非単調な対話の制御を可能とする。

 6章では、常識や対話により話される世界を表現するための定性推論の推論能力の向上法について述べる。常識において、上位下位概念や全体部分関係などの静的な関係は意味ネットワークなどにより表現可能である。しかし、会話では、さらに動的な常識に基づいて省略がなされることも多い。例えば、「水を火にかけ、その沸騰した湯に〜」の文を理解するためには、後の文の「湯」が前文の「水」と同じものであることを認識する必要がある。このためには、火にかけた水は沸騰した湯になる常識、すなわちシミュレーション能力をシステムに組み込む必要がある。定性推論は、このような正確なモデル化がしにくい常識による推論を定性的に実現しようとする方式である。ここでは、モデルのパラメータが予め指定できない場合やさらに系が不連続な挙動を含む場合のシミュレーションをも可能とする方式について述べる。

 7章で、以上の研究の結論を述べる。

審査要旨

 本論文は「話し言葉による対話文理解のための韻律情報ならびに文脈や背景知識の利用技術に関する基礎的研究」と題し、主として話し言葉を対象とし、その認識・理解における音韻情報以外の情報、すなわち韻律、文脈、常識等の利用についての研究をまとめたものであって、全7章からなる。

 第1章は「序論」であって、本論文の目的と背景を述べている。まず、対話システムでの課題を考察して音韻情報以外の情報の重要性を指摘し、次に、話し言葉に基づく情報システムの構成を示し、本論文の各章の位置づけを述べている。

 第2章は「韻律情報を用いた音声会話文の文構造推定方式」と題して、まず、韻律と言語情報との関連を概観した後、韻律情報から文の構造を推定することにより、文認識・理解の性能が大幅に向上することを述べている。次に、実際に文構造推定方式を提案し、それによって文構造の推定が可能なことを自然音声を用いた性能評価実験により示している。この方式は、ポーズ部分も含めた基本周波数パターンの大局的形状を利用するもので、構文境界での基本周波数パターンの形状の類型と実際のパターンとの照合を行って構文境界を推定し、文構造を生成するものである。

 第3章は「手話認識のためのセグメンテーション方式」と題して、まず、聴覚障害者のコミュニケーション言語である手話が話し言葉の特性を有することを言及し、そこには、音声の韻律情報に相当する特徴があることを述べている。次に、手の動きが単語境界と関連していることを指摘し、手の動作速度等を利用した単語境界検出手法を提案した上で、その評価実験を行っている。関連して、データグローブを利用した手の動き・形状等の検出にも言及している。

 第4章は「文脈情報利用のための発話対に基づく対話管理方式」と題して、まず、ユーザと対話システム間での円滑な対話の進行を実現するためには、過去の発話と現在の発話との関連を適切にとらえることが必要であることを指摘している。次に、これを実現するものとして、発話対に基づく対話管理方式を提案している。これは、発話対がユーザの質問、応答、システムの質問、回答によって起動する4つの場合に分けて対話制御を行うもので、発話対によって次発話が生成することを考慮することにより柔軟な対話管理を可能としている。行楽案内のタスクに対して方式の有効性を示している。

 第5章は「解釈誤りにも対処可能な柔軟な対話管理方式」と題して、まず、対話の流れの中で、入力文中の省略の補足等の過程により複数の解釈が可能となり、誤解が生じうることを述べ、その検出と訂正が円滑な対話の実現に重要なことを指摘している。次に、誤解の検出と訂正を効率的に行うために、仮定に基づいた真理保全機構(ATMS)を導入することを提案している。ATMSは、データベースを管理し、データの真理を維持するように動作する。対話の中で矛盾を検出すると、対話履歴をバックトラックし、誤りの元となる解釈を棄却し、代換え案に置き換えて対話を進行させる。これによって、対話を中断せずに進行させることができる。行楽案内を対象として、提案した方式の動作を検証している。

 第6章は「時間変化を含む常識表現のためのシミュレーション方式」と題して、まず、常識には静的なものと動的なものがあり、後者の表現には従来の意味ネットワークやフレーム表現では対応できないことを示している。次に、これに対して定性推論を用いた状態遷移のシミュレーション方式を提案し、シミュレーション可能な範囲の拡張について検討している。状態遷移に曖昧性を許容することにより、正確な値の設定が困難な系や、不連続な変化を伴う系のシミュレーションが行えることを具体的に示している。

 第7章は「結論」であって、本研究で得られた成果を要約している。

 以上これを要するに、本論文は、手話を含めた話し言葉を対象とし、その認識・理解に、音韻以外の情報、すなわち韻律、文脈、常識等を用いることをめざしたものであり、韻律による文構造推定、手の動きによる手話の単語境界検出、発話対による対話管理、誤り検出・修正可能な対話管理、動的に変化する常識の表現についてそれぞれ新しい方式を提案し、その有効性を示したものであって、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク