1背景 計算機能力および音声認識技術の向上により、音声認識が実用化されつつある。それに伴い、応用分野もビジネス用から娯楽・教育用へと広がってきた。これらの用途ではユーザのタスク遂行への動機は弱いため、システムとのインタラクション自体が自然かつ魅力的でなければ使用されない。しかし、従来研究において対象とされていた時刻表案内・観光案内・航空券予約などのビジネスタスクにおいては、情報伝達効率のみが重視され、自然なインタラクションは実現されていなかった。 一方、人間同士の友好的な会話では、不安や機嫌などの内部状態の推測に応じた応答変化(レスポンシブネス)が観察される.従って発話の内容(何を言ったか)や韻律(どう言ったか-図1A)から推測される、ユーザの内部状態を考慮した応答は、自然で優しい印象のシステムを演出する(図1B)のに有用であると予想されるが、その検証は行われていなかった。 韻律情報と感情の相関に関する報告は多い(Mackawa 1998)が、怒りや悲しみなど会話において表出頻度の低い感情が多く、会話システムの感情認識には不向きである。ユーザの自信の度合いの推測(Brennan & Williams 1995)のように、より実際的で微妙な内部状態の推測が必要である。また、それらの多くは分析的研究のため、音声対話システムにおける韻律情報利用の検証はユーザの問い返しの意思の推測(Kompe et al.1994)などに限定されている。 応答の生成(図中B)に関しては、応答のイントネーション変化による印象評価は行われているが(Shinozaki & Abe 1998)、応答語彙の変更の影響に関する知見は十分でない(Katagiri et al.1999)ので検討する必要がある。 図1:レスポンシブな対話システム概念図2目的 本研究では、ユーザの内部状態に応じた応答(レスポンシブネス)が、ユーザに自然で優しい印象を与えると仮定し、これを検証することを目的とする。また、レスポンシブな音声対話システムの構築・評価手法に関する知見を得ることも目的とする。 そのための方法として、日本語会話において意味情報としては等しい応答語彙「はい」「うん」「そう」などのあいづちが使い分けられていることに着目し、これらを使い分ける影響を聴取実験、対話実験で評価した。 3レスポンシブネスの有効性の評価実験 対象とするタスクドメインとしては家庭教師の授業を単純化した「山手線駅名クイズゲーム」を選択した。これは、家庭教師が「山手線の駅名を順番にあげてごらん」のように始め、生徒に駅名を次々に答えさせていくものであり、英単語や年号、九九などの暗記を支援する学習支援ソフトを単純化したものである。 ユーザが正解した場合の応答選択には表1のルールを用いた(導出は4章)。ルールは上から順に適用される。 表1:あいづち使い分けルール このルールを音声対話システムとして実装した。その際、音声認識誤りによる印象悪化を防ぐため、回答発話の正解・不正解のみをオペレータが入力する、Wizard of Oz法で実装した。応答は編集合成音声を用いた。 コントロール条件には内部状態を考慮しない最適なシステム(コーパスと同比率でランダムにあいづちを選択するルール)を用いた。被験者はルール条件、ランダム条件(コントロール条件)それぞれのシステムと山手線クイズ対話を約1分30秒行い、その後自分とシステムとの会話を聞き直して使いたいシステムを選択した。その結果、被験者13名中10名がルール条件のシステムを選択した(p<0.05)。従って、ルールに基づいた応答語彙変化はユーザに好印象を与えることが分かった。 被験者が各ルール毎のあいづちの自然さを評価した平均点を図2に示す。韻律情報のみから計算される「元気さ」ルールも他のルールと同様に機能していることが分かる。 図2:ルール毎の得点の平均(被験者の選択で分類):7段階評価。「ランダム好き」はランダムあいづちを選択した被験者、「ルール好き」はルールあいづちを選択した被験者。 ルール好きとランダム好きの比率はヒントをオペレータが出す予備実験でも同様(12:3)だったので、ランダム条件を好むユーザが存在する可能性がある。ルール好きの被験者は褒めるルールを順調ルールより高く評価し、ランダム好きのユーザはルール好きのユーザよりデフォルトルールや順調ルールの評価が高かった(図2,いずれもp<0.05)。 4応答選択部の構成手法 この節では、前節で有効性が示された応答選択ルールの構成法について述べる。 応答選択ルールをコーパスから学習させるために41対話39人で146分のコーパスを収集したが、図3(左)で対話(横軸)によって応答語彙が大きく異なることから分かるように、必ずしも全ての家庭教師がレスポンシブな応答をする訳ではなかった。これは家庭教師の個性が影響していると考え、39人から優しい家庭教師のモデルとして、(1)あいづちを打ち、(2)ヒントを出し、(3)楽しそうに進行する一人を選び、新たに6対話30分のコーパスを再構築した(図3(右))。 図3:左:41対話毎のあいづち頻度(横軸:対話)、右:6対話コーパスのあいづち コーパスが小規模であるため、コーパスからのルール抽出にはC4.5などは用いずにコーパス中で目立つ特徴のみから予備ルールを構築し、ユーザにこのルールの不備を指摘してもらい改良する方法を取った。予備ルールは「はい」「うん」<駅名復唱>を使い分けるものであった。 コーパス中の一対話(4分)のあいづち(30個所)を予備ルールの予測に従って編集合成で入れ替え、8人の被験者に聴かせた。その際の指摘をもとに再構成したのが表1である。 ルールを構築する際の指摘には「元気に答えた時には」「順調に進んでいる時には」など、ユーザの内部状態への言及があった。従って、これらのルールは指摘者の内部状態推測を反映していると言える(表2)。 表2:ルール構成の起源、応答印象、ルール条件の内部状態としての解釈 ルールは大きく「自信」と「元気さ」の二つの内部状態に関係していると解釈できた。これらの内部状態は事前に想定していたものではないが、コーパスと指摘から作られたルールは、結果としては内部状態として解釈可能なものになっていた。 4.1予備ルールとの比較 本ルールがコーパス特徴のみから構成した予備ルールよりも自然で優しい印象かを調べるため、コーパス中のあいづち予測精度を比較した(図4)。 図4:コーパス中のあいづちの予測結果 本ルールでは全体の予測精度が低下した。しかし、9名の被験者に2通りのルールであいづち(29個)を編集合成した会話(1対話4分)を聞かせ、自然な方を選択させたところ、8名が本ルールを選んだ(p<0.05)。 従って、対象とする現象(あいづち語彙)の多様性を知るためには、コーパス分析は有効であるが、応答選択ルールの構築にはコーパス分析と聴取による指摘の双方が有効であると言える。また、聴取実験の結果から、コーパスデータへの最適化のみではなく複数の評価方法が必要であることが分かった。 5レスポンシブな音声対話システムの評価手法 音声認識・理解性能を評価するシステムと異なり、自然さを重視したシステムでは、対話後のアンケート評価は精度が低いことが知られていた。これは、自然な応答は対話中に意識されにくいからである。このため本研究ではユーザが自分の対話を聞き直してから評価する方法を取った。聞き直しによってユーザは冷静に評価でき、また自分の会話なので会話中の状態を正確に想起できる。 この方法と会話直後での評価の比較を表3に示す。聞き直し後のコメントにはあいづちに関するものが増えた。 表3:会話実験:好ましいシステムの選択 また、あいづちの評価点数は聞き直し後の方が全体的に低くなった。これらから、聞き直しによってより細かな評価が可能になると言えるだろう。 6結論 音声対話システムの構成に関する以下の知見を得た。 1.あいづち語業の変化による印象制御の有効性を示した。 2.ユーザの言語・非言語情報に基づく繊細な応答選択戦略が印象向上に有効であることが分かった。これは、内部状態推測が有効である可能性を示すものである。 3.韻律情報のみから構成した応答選択ルールも有効であることが分かった。 対話システム構成・評価手法に関する以下の知見を得た。 1.コーパスの最適化とユーザ印象は一致しないため、双方の評価が必要であることが分かった。 2.会話実験での会話直後の評価は精度が低いが、本人による聞き直し評価は有効であることが分かった。 ReferencesBrennan,S.E. & M.Williams(1995).The Feeling of Another’s Knowing: Prosody and filled pauses as cues to listeners about the metacognitive status of speakers.Journal of Memory and Language,34:383-398.Katagiri,Yasuhiro,Miyoko Sugito,& Yasuko Nagano-Madsen(1999).Forms and Prosodic Characteristics of Backchannels in Tokyo and Osaka Japanese.In the 14th International Congress of Phonetic Sciences,pp.2411-2414.Kompe,R.,E.Noth,A.Kiebling,T.Kuhn,M.Mast,H.Niemann,K.Ott,& A.Batliner(1994).Prosody Takes over: Towards a prosodically guided dialog system.Speech Communication,15:155-167.Maekawa,Kikuo(1998).Phonetic and Phonological Characteristics of Paralinguistic Information in Spoken Japanese.In 1998 International Conference on Spoken Language Processing,pp.635-638.Shinozaki,Tsubasa & Masanobu Abe(1998).Development of CAI System Employing Synthesized Speech Responses.In 1998 International Conference on Spoken Language Processing,pp.2855-2858. |