学位論文要旨



No 216158
著者(漢字) 中野,有紀子
著者(英字)
著者(カナ) ナカノ,ユキコ
標題(和) 人間のコミュニケーション行動に関する実証的研究に基づくマルチモーダル会話インタフェースのデザイン
標題(洋) Designing Multimodal Conversational Interfaces Based on Empirical Studies of Human Communicative Behaviors
報告番号 216158
報告番号 乙16158
学位授与日 2005.01.20
学位種別 論文博士
学位種類 博士(情報理工学)
学位記番号 第16158号
研究科
専攻
論文審査委員 主査: 東京大学 教授 西田,豊明
 東京大学 教授 石塚,満
 東京大学 教授 喜連川,優
 東京大学 教授 坂井,修一
 東京大学 助教授 黒橋,禎夫
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

 音声言語,画像,アニメーションに等,複数のコミュニケーションモダリティを有するマルチモーダル会話インタフェース(MCI)はその表現の豊富さから,よりわかりやすいメディアであると思われがちであるが,人間の認知やコミュニケーションの様式に適合した表現を適切に選択できなければ,その複雑さゆえにかえってわかりにくいものとなってしまう.

 本論文では,人間のコミュニケーション行動を解明するためのコミュニケーション科学,心理学,言語学からの知見,および方法論と,会話インタフェースを構築するための人工知能やメディア技術等の工学的なアプローチとを統合することにより,人間の言語・非言語コミュニケーション行動の分析に基づいたMCIのデザインを行い,より自然な人対コンピュータのインタラクションを実現することを目的とする.第1章では,本論文の研究方法について議論し,(1)人間のコミュニケーション行動を分析し,(2)それをモデル化する,(3)そのモデルをシステムに実装することによりMCIを構築し,それを評価する,という3つのステップからなる研究方法を提案する.このように実証研究とシステムデザインとを一貫した枠組みで遂行することにより,人間と同様のコミュニケーション様式をMCIの機能として実現することが可能となる.本論文の各章では,この研究方法を用いてMCIの各構成素をデザインし,構築する.簡略化したMCIのシステム構成とこれに対応付けた本研究の概要を図1に示す.

 第2章では,本研究に関連する言語学,計算言語学,コミュニケーション科学,人工知能,会話エージェント等の研究を概観する.

 第3章では,会話インタフェースにおけるシステム発話の決定(Content Planner)に関する問題として,システムがユーザから情報を引き出すための質問の生成と,ユーザへの教示の生成を取り上げる.

 質問の生成についての研究では,まず質問内容を特徴付ける5つのパラメータを設定し,これらのパラメータ値の集合と質問の仕方との関係を調べた.この分析結果に基づき,質問内容のパラメータ値から質問の仕方を自動的に決定する機構を提案し,さらに評価実験により本手法の有効性を確認した.

 対話的な教示の生成についての研究では,電話機操作の教示対話を分析し,初めての説明と,復習としての説明,学習者が理解できなかった場合の再説明の3つの対話状況で,付加的な説明の出現頻度と1回のターンで与える情報量が異なっていることを見出した.さらに,これらの点に着目して,教示の発話内容決定とターン方略の決定メカニズムをプランニングを用いて実装した.

 第4章では,第3章での言語のみの会話インタフェースを拡張し,3次元仮想環境を利用した教示対話システムにおいて,ユーザの視野,視点に応じた教示対話を生成する機構を提案する.

 第1に,本システムでは,談話中の参照物が現在のユーザ視点から知覚可能であるか否かを制約として発話内容プランの展開を行うことにより,ユーザの視点に応じた発話内容の決定を行う.第2に,ユーザの視点を対話履歴の一部として談話構造モデルを用いて管理することにより,話題の転換(push),回帰(pop)が起こった場合にも,ユーザの視点を適切にコントロールすることが可能である.本システムは,自動車の構造を学習するための仮想環境であり,ユーザは音声とGUIによりシステムとのインタラクションを行う.

 本章で提案した手法により,マルチモーダル教示対話システムにおいて,ユーザの視点という知覚的な制約を考慮した対話の内容決定を行い,視覚情報と言語情報とを対話生成メカニズムの中に齟齬なく統合することが可能となった.

 第5章では,MCIの対話制御部(Dialogue State Manager)について述べる.また,ユーザとのより自然なインタラクションを実現するために,会話エージェントを導入したシステムを実装する.

 会話の最も基本的な側面の1つとして,相手の言ったこと,意味したことを共通の理解とするgroundingという過程がある.特に対面場面では,言語情報のみならず非言語情報もこのgrounding過程に寄与していると考えられる.そこで,本章では,うなづきや視線といった非言語情報の使用についてgroundingの視点から詳細に分析し,groundingの対象となる言語情報とgrounding過程で用いられる非言語情報との関係を探る.

 まず,地図を共有しながら道案内をする対面場面の会話において,視線やうなづきがどのように使用されているのかを分析した結果,groundingの対象となる発話行為のタイプによって,聞き手からの理解の証拠(evidence of understanding)となる非言語情報の使用パターンが異なっていることが明らかになった.さらに,聞き手の継続的な注視行動は理解の負の証拠(negative evidence of understanding),つまり,聞き手が理解できなかったことを示す非言語情報であることがわかった.

 以上の分析結果に基づき,groundingための非言語情報を生成,認識できる会話エージェントを実装した.予備的な評価実験として,ユーザが本システムとインタラクションする場合と,grounding機能を持たないシステムとインタラクションする場合とを比較した.その結果,本システムとのインタラクションにおけるユーザの非言語行動が人対人のインタラクションのそれと非常に類似しており,提案手法の有効性が確認された.

 第6章では,マルチモーダル会話インタフェースのためのコンテンツ作成支援技術となるマルチモーダル生成機構(Generation Module),特に音声と同期した会話エージェントによるジェスチャーの自動生成について述べる.

 ジェスチャーは発話中の重要な概念を強調するために用いられると言われている.そこで,プレゼンテーションのビデオデータを分析し,発話中の語彙・統語的情報とジェスチャー出現との関係を調べた.次に,この分析結果をジェスチャー付与ルールとして利用し,テキスト中の言語情報を用いてエージェント動作を自動的に決定,生成する機構,CASTを実装した.

 次に,CASTをプレゼンテーション自動生成システム,SPOCに組み込み,利用者が好みの映像や画像のファイルを指定し,それへの説明文を入力するだけで,説明者キャラクターを登場させたテレビ番組風のメディアが自動的に生成される機構を実現した.

 最後に,評価実験を行い,5分程度の利用方法の説明で,全ての被験者が困難を感じることなくシステムの使い方を習得できること,また,SPOCにより情報をわかりやすく伝えることができると感じていること等が明らかになった.これらの実験結果から,本システムにより,一般ユーザが手軽に会話エージェントによるコンテンツを作成できることが実証された.

 第7章では,将来課題について議論し,最後に第8章で本研究の結論を述べる.今後,マルチモーダル会話インタフェースが教育やネットワークコミュニティー等の実践的な場でより広く利用されるようになるにつれ,人間同士のインタラクションプロトコルの解明と,このプロトコルが人対人工物のコミュニケーション様式をどのように規定しているのかの両側面について研究を進めることがよりいっそう重要になるであろう.現在の技術では人工物とのインタラクションは人間同士の対面コミュニケーションからは程遠いと言わざるを得ないが,本研究では学際的な研究アプローチを提案,実践することにより,人対コンピュータ間コミュニケーションの研究領域において新しい方向性を示した.

図1:MCIシステム構成と本研究の概要

審査要旨 要旨を表示する

 本論文は、「Designing Multimodal Conversational Interfaces Based on Empirical Studies of Human Communicative Behaviors」(人間のコミュニケーション行動に関する実証的研究に基づくマルチモーダル会話インタフェースのデザイン)と題し、8章からなる。本論文は、コミュニケーション科学、心理学、言語学の知見と方法論を用いて人間の言語・非言語コミュニケーション行動を分析することによって、人間にわかりやすいマルチモーダル会話インタフェース(MCI)を実現するための技術とその実験的評価について論じたものである.

 第1章「Introduction」(緒論)では、MCIの研究を一貫した枠組みのなかで進めるための方法論について議論し、人間のコミュニケーション行動の分析、モデル化、システム構築および評価の3ステップからなる研究方法論を示している。

 第2章「Fundamental Work」(基礎研究)では、本研究の基礎となる発話行為理論、会話分析、会話のグラウンディング、マルチモーダルコミュニケーションの研究を概観している。

 第3章「Decision and Generation of Utterance Contents in Conversational Interfaces」(会話インタフェースにおける発話内容の決定と生成)では、会話インタフェースにおける質問と対話的教示の生成を中心に発話内容決定の問題について論じている。質問生成については、質問内容を特徴付ける5個のパラメータに着目し、その値から質問の仕方を決定する手法を提案し、評価実験によってその有効性を確認した。対話的教示の生成については、初めての説明、復習としての説明、再説明の効果の違いを実験的に解明し、有益な知見を得るとともに、発話内容とターン方略を決定するメカニズムを示した。

 第4章「Generating Multimodal Instruction Dialogues」(マルチモーダル指示会話の生成)では、3次元仮想環境においてユーザの視野と視点に応じた教示対話を生成するシステムについて論じている。発話プランニング機構の中に、談話中の参照物のユーザからの知覚可能性に依存した発話内容決定機構を組み込む、談話管理モデルのなかにユーザの視点履歴も組み込むことによって話題の転換が起きてもユーザの視点を適切に管理できるようにする、というアイデアに基づいて発話生成機構の提案と実装を行い、視覚情報と言語情報を対話生成機構の中で統合的に利用することに成功した。

 第5章「Dialogue Management Using Nonverbal Signals」(非言語シグナルを用いた対話管理)では、会話の最も基本的な側面であるグラウンディングの分析とシステム化について論じている。まず、地図を用いた道案内実験を行うことにより、グラウンディングの対象となる発話行為のタイプによって聞き手からの理解の証拠となる非言語情報の使用パターンが異なることや、聞き手の継続的な注視行動が聞き手が理解できなかったことを示す非言語情報であることなど、有用な知見を得た。この知見に基づいて、グラウンディングのための非言語情報の認識と生成ができる会話エージェントの実装を行い、予備的な評価実験のレベルでその有効性を確認した。

 第6章「Generating Gestures for Presentation Agents」(プレゼンテーションのためのジェスチャ生成)では、マルチモーダル会話インタフェースのためのコンテンツ制作支援技術について、音声と同期したジェスチャ生成機構を中心に論じている。ビデオデータ分析に基づくジェスチャ付与ルールの作成を行い、発話テキストの言語解析によってエージェントの動作を自動的に生成する機構CASTとして実装し、さらにCASTを核として、画像または映像とそれに対応付けられた説明文を入力するだけでプレゼンテーションエージェントが登場するテレビ番組風コンテンツを自動生成するシステムSPOCを実現し、実験による有効性確認を行うことにより、誰でも手軽に会話エージェントによるコンテンツ制作ができる環境をはじめて実現した。これは、マルチモーダル会話インタフェースの実用化への大きな貢献であると認められる。

 第7章「Discussion and Future Direction」(検討および今後の方向)では、本研究の限界について議論した上で、将来の研究課題として、マルチモーダル会話環境を用いたマルチモーダルコンテンツの効果的な制作支援手法の実現と、コミュニケーションのリアリティの向上をあげている。

 最後に、第8章「Conclusion」(結論)では、本研究の総括を行っている。

 以上を要するに、本論文は、人間にわかりやすいマルチモーダル会話インタフェースの実現技術について論じ、詳細な会話分析に基づいてマルチモーダル会話インタフェースの高度化に貢献するいくつかの新しい知見を示すとともに、得られた知見に基づく新しい会話管理手法を提案し、言語情報と非言語情報を統合した会話行動を生成するプレゼンテーションエージェントの実現および実験による有効性確認を行ったものであり、電子情報学上貢献するところが少なくない。

 よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/49026