学位論文要旨



No 115114
著者(漢字) 塚原,渉
著者(英字)
著者(カナ) ツカハラ,ワタル
標題(和) 音声対話システムにおけるプロソディと文脈に基づくレスポンシブなあいづち選択
標題(洋)
報告番号 115114
報告番号 甲15114
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4609号
研究科 工学系研究科
専攻 機械情報工学専攻
論文審査委員 主査: 東京大学 助教授 WARD,Nigel
 東京大学 教授 佐藤,知正
 東京大学 教授 廣瀬,通孝
 東京大学 教授 辻井,潤一
 東京大学 教授 石塚,満
 東京大学 教授 広瀬,啓吉
内容要旨 1背景

 計算機能力および音声認識技術の向上により、音声認識が実用化されつつある。それに伴い、応用分野もビジネス用から娯楽・教育用へと広がってきた。これらの用途ではユーザのタスク遂行への動機は弱いため、システムとのインタラクション自体が自然かつ魅力的でなければ使用されない。しかし、従来研究において対象とされていた時刻表案内・観光案内・航空券予約などのビジネスタスクにおいては、情報伝達効率のみが重視され、自然なインタラクションは実現されていなかった。

 一方、人間同士の友好的な会話では、不安や機嫌などの内部状態の推測に応じた応答変化(レスポンシブネス)が観察される.従って発話の内容(何を言ったか)や韻律(どう言ったか-図1A)から推測される、ユーザの内部状態を考慮した応答は、自然で優しい印象のシステムを演出する(図1B)のに有用であると予想されるが、その検証は行われていなかった。

 韻律情報と感情の相関に関する報告は多い(Mackawa 1998)が、怒りや悲しみなど会話において表出頻度の低い感情が多く、会話システムの感情認識には不向きである。ユーザの自信の度合いの推測(Brennan & Williams 1995)のように、より実際的で微妙な内部状態の推測が必要である。また、それらの多くは分析的研究のため、音声対話システムにおける韻律情報利用の検証はユーザの問い返しの意思の推測(Kompe et al.1994)などに限定されている。

 応答の生成(図中B)に関しては、応答のイントネーション変化による印象評価は行われているが(Shinozaki & Abe 1998)、応答語彙の変更の影響に関する知見は十分でない(Katagiri et al.1999)ので検討する必要がある。

図1:レスポンシブな対話システム概念図
2目的

 本研究では、ユーザの内部状態に応じた応答(レスポンシブネス)が、ユーザに自然で優しい印象を与えると仮定し、これを検証することを目的とする。また、レスポンシブな音声対話システムの構築・評価手法に関する知見を得ることも目的とする。

 そのための方法として、日本語会話において意味情報としては等しい応答語彙「はい」「うん」「そう」などのあいづちが使い分けられていることに着目し、これらを使い分ける影響を聴取実験、対話実験で評価した。

3レスポンシブネスの有効性の評価実験

 対象とするタスクドメインとしては家庭教師の授業を単純化した「山手線駅名クイズゲーム」を選択した。これは、家庭教師が「山手線の駅名を順番にあげてごらん」のように始め、生徒に駅名を次々に答えさせていくものであり、英単語や年号、九九などの暗記を支援する学習支援ソフトを単純化したものである。

 ユーザが正解した場合の応答選択には表1のルールを用いた(導出は4章)。ルールは上から順に適用される。

表1:あいづち使い分けルール

 このルールを音声対話システムとして実装した。その際、音声認識誤りによる印象悪化を防ぐため、回答発話の正解・不正解のみをオペレータが入力する、Wizard of Oz法で実装した。応答は編集合成音声を用いた。

 コントロール条件には内部状態を考慮しない最適なシステム(コーパスと同比率でランダムにあいづちを選択するルール)を用いた。被験者はルール条件、ランダム条件(コントロール条件)それぞれのシステムと山手線クイズ対話を約1分30秒行い、その後自分とシステムとの会話を聞き直して使いたいシステムを選択した。その結果、被験者13名中10名がルール条件のシステムを選択した(p<0.05)。従って、ルールに基づいた応答語彙変化はユーザに好印象を与えることが分かった。

 被験者が各ルール毎のあいづちの自然さを評価した平均点を図2に示す。韻律情報のみから計算される「元気さ」ルールも他のルールと同様に機能していることが分かる。

図2:ルール毎の得点の平均(被験者の選択で分類):7段階評価。「ランダム好き」はランダムあいづちを選択した被験者、「ルール好き」はルールあいづちを選択した被験者。

 ルール好きとランダム好きの比率はヒントをオペレータが出す予備実験でも同様(12:3)だったので、ランダム条件を好むユーザが存在する可能性がある。ルール好きの被験者は褒めるルールを順調ルールより高く評価し、ランダム好きのユーザはルール好きのユーザよりデフォルトルールや順調ルールの評価が高かった(図2,いずれもp<0.05)。

4応答選択部の構成手法

 この節では、前節で有効性が示された応答選択ルールの構成法について述べる。

 応答選択ルールをコーパスから学習させるために41対話39人で146分のコーパスを収集したが、図3(左)で対話(横軸)によって応答語彙が大きく異なることから分かるように、必ずしも全ての家庭教師がレスポンシブな応答をする訳ではなかった。これは家庭教師の個性が影響していると考え、39人から優しい家庭教師のモデルとして、(1)あいづちを打ち、(2)ヒントを出し、(3)楽しそうに進行する一人を選び、新たに6対話30分のコーパスを再構築した(図3(右))。

図3:左:41対話毎のあいづち頻度(横軸:対話)、右:6対話コーパスのあいづち

 コーパスが小規模であるため、コーパスからのルール抽出にはC4.5などは用いずにコーパス中で目立つ特徴のみから予備ルールを構築し、ユーザにこのルールの不備を指摘してもらい改良する方法を取った。予備ルールは「はい」「うん」<駅名復唱>を使い分けるものであった。

 コーパス中の一対話(4分)のあいづち(30個所)を予備ルールの予測に従って編集合成で入れ替え、8人の被験者に聴かせた。その際の指摘をもとに再構成したのが表1である。

 ルールを構築する際の指摘には「元気に答えた時には」「順調に進んでいる時には」など、ユーザの内部状態への言及があった。従って、これらのルールは指摘者の内部状態推測を反映していると言える(表2)。

表2:ルール構成の起源、応答印象、ルール条件の内部状態としての解釈

 ルールは大きく「自信」と「元気さ」の二つの内部状態に関係していると解釈できた。これらの内部状態は事前に想定していたものではないが、コーパスと指摘から作られたルールは、結果としては内部状態として解釈可能なものになっていた。

4.1予備ルールとの比較

 本ルールがコーパス特徴のみから構成した予備ルールよりも自然で優しい印象かを調べるため、コーパス中のあいづち予測精度を比較した(図4)。

図4:コーパス中のあいづちの予測結果

 本ルールでは全体の予測精度が低下した。しかし、9名の被験者に2通りのルールであいづち(29個)を編集合成した会話(1対話4分)を聞かせ、自然な方を選択させたところ、8名が本ルールを選んだ(p<0.05)。

 従って、対象とする現象(あいづち語彙)の多様性を知るためには、コーパス分析は有効であるが、応答選択ルールの構築にはコーパス分析と聴取による指摘の双方が有効であると言える。また、聴取実験の結果から、コーパスデータへの最適化のみではなく複数の評価方法が必要であることが分かった。

5レスポンシブな音声対話システムの評価手法

 音声認識・理解性能を評価するシステムと異なり、自然さを重視したシステムでは、対話後のアンケート評価は精度が低いことが知られていた。これは、自然な応答は対話中に意識されにくいからである。このため本研究ではユーザが自分の対話を聞き直してから評価する方法を取った。聞き直しによってユーザは冷静に評価でき、また自分の会話なので会話中の状態を正確に想起できる。

 この方法と会話直後での評価の比較を表3に示す。聞き直し後のコメントにはあいづちに関するものが増えた。

表3:会話実験:好ましいシステムの選択

 また、あいづちの評価点数は聞き直し後の方が全体的に低くなった。これらから、聞き直しによってより細かな評価が可能になると言えるだろう。

6結論

 音声対話システムの構成に関する以下の知見を得た。

 1.あいづち語業の変化による印象制御の有効性を示した。

 2.ユーザの言語・非言語情報に基づく繊細な応答選択戦略が印象向上に有効であることが分かった。これは、内部状態推測が有効である可能性を示すものである。

 3.韻律情報のみから構成した応答選択ルールも有効であることが分かった。

 対話システム構成・評価手法に関する以下の知見を得た。

 1.コーパスの最適化とユーザ印象は一致しないため、双方の評価が必要であることが分かった。

 2.会話実験での会話直後の評価は精度が低いが、本人による聞き直し評価は有効であることが分かった。

ReferencesBrennan,S.E. & M.Williams(1995).The Feeling of Another’s Knowing: Prosody and filled pauses as cues to listeners about the metacognitive status of speakers.Journal of Memory and Language,34:383-398.Katagiri,Yasuhiro,Miyoko Sugito,& Yasuko Nagano-Madsen(1999).Forms and Prosodic Characteristics of Backchannels in Tokyo and Osaka Japanese.In the 14th International Congress of Phonetic Sciences,pp.2411-2414.Kompe,R.,E.Noth,A.Kiebling,T.Kuhn,M.Mast,H.Niemann,K.Ott,& A.Batliner(1994).Prosody Takes over: Towards a prosodically guided dialog system.Speech Communication,15:155-167.Maekawa,Kikuo(1998).Phonetic and Phonological Characteristics of Paralinguistic Information in Spoken Japanese.In 1998 International Conference on Spoken Language Processing,pp.635-638.Shinozaki,Tsubasa & Masanobu Abe(1998).Development of CAI System Employing Synthesized Speech Responses.In 1998 International Conference on Spoken Language Processing,pp.2855-2858.
審査要旨

 本論文は「音声対話システムにおけるプロソディと文脈に基づくレスポンシブなあいづちの選択」と題し、音声対話システムのレスポンシブネス(システムの反応の速さ、適切さ)向上に有効な応答選択方法を提案すること、および、レスポンシブなシステムの構築・評価手法を提案することを目的として研究を行ったものである。

 論文提出者は今後音声認識を含むマルチモーダル対話システムの需要が増大し、従来は評価が試みられてこなかった「ユーザの内部状態(気分)に応じた応答の選択」の重要性が高まると予測する。研究題材を日本語会話における「はい」「うん」「そうそう」などの確認応答あいづち語彙に、これらの使い分けがユーザ印象に及ぼす影響を検討することによって、ユーザインタフェースにおけるレスポンシブネスの重要性、実装・評価手法に関する提案を行っており、本研究を自然な対話システム開発のための基礎研究として位置づけている。

 全体的な研究の流れとしては、まず設定したタスクドメインに基づいて音声対話コーパスを収集し、このコーパスに現れる確認応答語彙に対して応答選択ルールを提案し、このルールを被験者との会話実験で評価している。論文は全6章からなる。

 第一章は「序論」であり、人間同士の会話においては「相手の内部状態に応じた微妙な応答変化(レスポンシブンネスの一部)」が観察され、これは今後需要が増すであろう家庭・娯楽用途では重要であることを述べている。また、プロソディなどの非言語情報に基づく感情認識技術の有効性を指摘し、その実用的な利用の必要性を説明している。これらを踏まえ、本論文の目的をレスポンシブネス付与の有効性の検討およびレスポンシブなシステムの構築・評価手法の提案とすることを述べている。

 第二章は「タスクドメインの選択・コーパスの収集」であり、意味内容の簡潔さにも関わらず内部状態が表現されやすいタスクドメインが必要なことを述べている。そのため、生徒が何かを覚えるタスク、とそれを支援する家庭教師との間の対話を着目し、その例である「山手線クイズゲームタスク」について説明している。コーパスを収集し、その中の確認応答には個人差があることが分かったため、対話者の片方を固定して再構築した小規模コーパスを分析対象とすることを述べている。

 第三章は「コーパス分析に基づく応答選択ルールの提案」であり、コーパス観察および合成した会話の聴取実験での批評から、応答選択ルールを作成したことを述べている。得られたルールは六つあり、それぞれ1.順調な場合、2.不安な場合、3.難しかった場合、4.元気な場合、5.良くできた場合、6.非常に順調な場合,に対する応答からなり、文脈情報とプロソディ情報の双方を利用していることを述べている。また、コーパスに対する予測精度は、必ずしも聴取実験での印象評価と一致しないため、複数の評価尺度が必要であることを述べている。

 第四章は「レスポンシブネスの評価手法」であり、評価実験のデザインに関して述べている。被験者が生徒の役割を取ってもらって、音声対話システムと会話し、レスポンシブネスは自然さとして評価されるが、自然さの認識は困難性であることが分かったと述べている。そのために、音声認識部は人間による代行、編集合成応答音声の使用、応答タイミング管理などの対策でシステムを改善し、対話後に聞き直してから評価する手法を導入したことを説明している。

 第五章は「実験結果」であり、被験者による評価結果を報告している。被験者はランダムに語彙を選択するコントロール条件応答よりルール条件応答を好むことを示し、好印象に寄与した要因として、被験者が自然さと優しさを重視すること、良くできたら褒めるルールが好印象であること、などを述べている。また、会話直後より会話の聞き直し後の方がはっきりした評価になることから、聞き直し評価手法が有効であると述べている。

 第六章は「結論」であり、本研究で得られた成果を要約し、将来の課題について述べている。

 以上を要するに、本論文は従来会話システムで評価されていなかった応答の微妙な使い分けをプロソディと文脈に基づいて行うことにより、ユーザ印象が向上することを立証し、また構築・評価手法としてコーパス分析と共に行う会話実験や、聞き直し評価法の重要性を示したものであって、これからのユーザの内部状態を読んで、実時間でそれに応じて応答を調節するシステム一般に役立つ技術であり、機械情報工学に貢献するところが少なくない。よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク