学位論文要旨



No 214290
著者(漢字) 土佐,尚子
著者(英字)
著者(カナ) トサ,ナオコ
標題(和) サイバースペースで感情を認識・生成するインタラクティブキャラクターの研究
標題(洋)
報告番号 214290
報告番号 乙14290
学位授与日 1999.04.15
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第14290号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 河口,洋一郎
 東京大学 助教授 廣瀬,通孝
 東京大学 助教授 橋本,秀紀
 東京大学 助教授 相澤,清晴
内容要旨

 本論文は、感情をインタフェースとした人間・コンピュータ間のコミュニケーションを実現しようとする手法についての研究をまとめたものである。

 人間同士のコミュニケーションでやり取りされる情報には、バーバルなものとノンバーバルなものがある。ノンバーバルな情報は、感覚・感情・感性などを伝達するため、コミュニケーションにおいてバーバルな情報に劣らず重要な役割をしている。したがって、今後の人間・コンピュータ間のコミュニケーションにおいても、ノンバーバルなコミュニケーションを実現することが重要な課題となる。これが本研究を開始した動機である。

 本研究は、以下の点に重点をおいて研究を進めた点に特徴がある。

 (1)ノンバーバルな情報の中でも特に感情に注目し、感情をインタフェースとした種々のインタラクションシステムのデザイン設計・システム構築を行い、感情インタフェースの重要性を示したこと、

 (2)デザイン設計・システム構築の過程で随所にアーティスティックなアプローチを適用したこと。

 従来、人間・コンピュータ間のバーバルなインタフェースを取り扱った例は多いが、ノンバーバルな情報を取り扱った研究は少なかった。また、行なわれている研究も、顔表情やジャスチャーなどに関するものが多く、ノンバーバルな情報の中でも非常に重要な働きをする「声」に含まれる「感情」をインタフェースとして取り上げた研究は、ほとんど存在しない。本研究は感情をインタフェースとして総合システムを構築した最初の研究であり、その点に本研究の1つの特徴がある。

 また、従来の研究は分析を主とした工学的アプローチに基づいており、システム全体としての完成度より個々の技術に重点が置かれていた。これに対し本研究では、感性に基づいたアート的アプローチを取り入れることにより、システム全体の統一性・完成度を高めることに重点をおいて研究を進めた。これが本研究の第2の特徴である。

1感情コミュニケーションを行なうキャラクターの生成

 まず、最初の取り組みとして、感情をインタフェースとして人間とコミュニケーションできるキャラクターの基本モデルとして「ニューロベイビー」を構築した。ニューロベイビーは、大人と感情でコミュニケートする赤ちゃんをイメージして作られており、話しかける人の声から感情を抽出し、インタラクティブに答える機能を持つ。

 ニューロベイビーは、音声解析部、画像生成部、音声出力部の3つのサブシステムからなる。音声解析部ではマイクに向かって発した人間の声の音声波形を分析してニューラルネットワークに与え、その出力として感情変数と呼ぶデータを得る。ニューラルネットワークには、予め人間の声の調子と感情変数との関係をいくつか学習させてある。音声解析部から画像生成部及び音声出力部へは、感情変数が送られる。画像生成部では感情変数を入力として赤ちゃんの表情のCGを出力する。感情変数のいくつかの値に対応する顔は、キーフレームのみ予めデザインしておく。実行時には、入力された感情変数の値に応じて、あらかじめデザインした顔の補間を行い表情を生成する。また、各感情に対応する応答音声を用意しておき、音声出力部から出力する(図1.1)。

 取り扱う感情は喜・怒・哀・楽の4種類である。2次元の平面で種々の感情を表現する感情モデルを採用した。4種類の感情の2次元平面への配置、ニューラルネットの学習、自然で適切な反応を得るための感情を再配置、という処理の繰り返しにより感情モデルのデザインを行う(図1.2)。

図表図1.1 ニューロベイビーのシステム構成 / 図1.2 ニューロベイビーのデザイン手順

 声の抑揚は、各国の言語、性別によって異なるが、国別、性別に分類したカスタマイズを行うことにより、ニューロベイビーは異なる性別、言語に適応できる一般性を持っている。

2感情を用いた異文化間のコミュニケーション

 次に、ニューロベイビーを異文化間のコミュニケーションの仲介役として用いる研究を行った。ニューロベイビーの持つカスタマイズ機能を用いることにより、異文化間の感情を翻訳できる可能性が生じるため、これを「ネットワークニューロベイビー」と名付け、実際の感情翻訳実験に適用する試みを行った。

 図2にネットワークニューロベイビーの処理プロセスを示す。本システムでは、新たにハンドシェイクマシン(握手を感知するセンサーデバイス)を付加することにより、握り方の強さをデジタル化し、これを感情を表現するデータの1つとして用いた。又、アイトラッキング装置を付加することにより、相手のいる方向に向かって顔を向ける機能を持たせた。

図2 ネットワークニューロベイビーの処理

 ネットワークニューロベイビーを用いて感情翻訳を行う実験をSIGGRAPH’95において実施した。米国ロスアンゼルスの会場と共同研究先の東京大学生産技術研究所を結ぶと共に、双方の会場にニューロベイビーのシステムを設置し、通信回線を介してリアルタイムにデータの伝送を行なった。米国・日本にいる利用者各々の感情データが相手のニューロベイビーに送られ、各々のニューロベイビーは、利用者の国民性に対応した反応(表情と握手情報)を相手に伝えることによって感情翻訳を行った。

3音声とジェスチャーからマルチモーダルに感情認識する複合感情生成キャラクター「ミック」

 さらに、感情を用いたコミュニケーションの高度化を図り、「ミック」と呼ぶキャラクターを開発した。ミックで実現を図ったのは、感情認識の高度化と、ジェスチャーによる感情認識の付加によるインタラクションのマルチモーダル化である(図3.1)。

 まず感情認識に関しては、取り扱える感情の数を4つから8つに増加した。また、韻律特徴と音韻特徴量を同時に抽出・利用する精密な音声処理を行うと共に、認識のためのアーキテクチャとしてニューラルネットを用い、大量の学習サンプルを用いた学習処理を行うことにより、不特定話者に対応できかつコンテキスト独立型の感情認識を実現した。図3.2はミックの感情認識の処理プロセスである。

 また画像認識機能を取り入れることにより、入力を声だけでなく人間の手のジャスチャーからも行なえるようにし、マルチモーダルなノンバーバルインタフェースを実現した。

4声の感情と言葉の意味に対応する「インタラクティブポエム」

 次の段階として、バーバルインタフェースとノンバーバルインターフェースの融合を図る研究を行った。感情のやりとりのみではなく、言葉の意味も同時に理解して、連歌形式で人間と詩の読みあいができるコンピュータ詩人「インタラクティブポエム」システムを構築した(図4.1)。システムは、図4.2に示すように、システム制御、音声認識、イメージ生成、音声出力の4種類のユニットから構成される。インタラクティブポエムは、感情認識機能に加え音声認識機能を取り入れており、人間の発声する詩のフレーズとその感情を認識し、それに続くフレーズを感情を含んだ音声で応答する機能を持っている。

図表図3.1 ミックの代表的な感情表現 / 図3.2 ミックの処理プロセス / 図4.1 インタラクティブポエムを行なう観客 / 図4.2 インタラクティブポエムのソフトウエア構成システム
5感情に反応するインタラクティブシアターの構成

 以上の研究の仕上げとして、キャラクターの世界にドラマを導入し、その結果として感情移入型インタラクションを実現することを目指したインタラクティブシアターを構築した。特に、インタラクティブな物語の進行をコントロールするスクリプト言語の設計とその処理に重点をおいて研究を進めた。

 まず第1次システムでは個々の構成要素の構築に重点をおいた。システムは、インタラクティブストーリーにおける各シーンの構成要素の定義、各シーン間の遷移の制御などを行なうスクリプトマネージャー、各シーンにおけるCGで作られたキャラクターと背景画像の記述を制御するシーンマネージャー、各シーンにおける音声・動作のインタラクションを制御するインタラクションマネージャーなどで構成される。また、音声認識・画像認識機能を採用すると共に、それらを組み合わせたマルチモーダルインタラクションの機能を実現した(図5.1)。

 第2次システムでは、第1次システムの改良として、複数人の参加が可能なシステムの実現と、任意の時点でのインラクションが可能なメカニズムの実装、より複雑なインタラクティブシナリオの実現を可能にしたスクリプト記述の実現などを図った(図5.2)。

図表図5.1 第1次システムのソフトウエア構成 / 図5.2 第2次システムのソフトウエア構成
6まとめ

 本研究の成果は大きく分けて2つある。1つは感情を介した人間・コンピュータ間のインタフェースを実現したことである。人間の感情を認識し、それに反応するコンピュータキャラクター「ニューロベイビー」、感情インターフェースを高度化し、感情の数の増加、反応パターンの高度化・マルチモーダル化を図ったマルチモーダルキャラクター「ミック」を構築した。いずれも感情インターフェースの実現例としては最初のものである。「ニューロベイビー」・「ミック」は国内外の数々の技術展示会・アートの展覧会に展示・招待展示され、実際に体験した見学者から高い評価を得た。これらの結果から感情インターフェースが文化を問わず極めて有効なものであると評価できる。また、異文化間感情翻訳という問題に挑んだ「ネットワークニューロベイビー」は、そのコンセプトを多くの人々から評価された。

 次に本研究で実現できたことは感情移入の実現である。感情を介したインタフェースでは効率は評価基準として適切ではない。むしろ、感情インターフェースにより、人間がインタラクションにいかに没入できるか、さらにはコンピュータキャラクターにいかに感情移入できるかが適切な評価基準といえるだろう。感情移入型キャラクターの具体例として、声に含まれる感情と共に言葉の意味を認識し人間と詩を連歌的に朗読できるシステム「インタラクティブポエム」を実現した。インタラクティブポエムを国内を始め米国・ヨーロッパで展示した結果、文化を越えて外国の人々にも深い感銘を与えた。さらに「インタラクティブシネマ」では、ストーリーの導入による映画型感情移入空間を実現した。

審査要旨

 本論文は、「サイバースペースで感情を認識・生成するインタラクティブキャラクターの研究」と題し、感性的な人間・コンピュータ間インタフェースの実現を目的として、感情を中心としたノンバーバルインタフェースのデザイン手法と具体的なシステム構築例を論じたものであって、全体で9章からなる。

 第1章は「序論」であって、本研究の背景・目的・構成について述べている。すなわち、まず従来のヒューマンインタフェースの研究を概観した後、感情を介したノンバーバルインタフェースの重要性を指摘して本論文の位置づけを明らかにするとともに、本論文の目的ならびに構成について述べている。

 第2章は「感情インタフェース研究の課題と本研究の取り組み」と題し、まず感情インタフェースならびにアーテイスティックなアプローチの重要性について述べて、本研究の位置付けをおこなっている。また、本研究で取り上げる具体的な課題とアプローチについて述べている。

 第3章は「感情コミュニケーションを行なうキャラクターの生成」と題し、人間とコンピュータの感情によるコミュニケーションに注目し、音声処理技術とニューラルネットワーク技術を用いて、人間の声に含まれる感情に反応するひとがた感情キャラクター「ニューロベイビー」について論じている。すなわち、まずインタラクティビティはコミュニケーションであるとする立場から、インタラクテイビティを持った感情表現のモデル化を試みている。また、人間が感情移入をする媒体のモデルとしての「ひとがた」を論じ、話しかける人の声から感情を抽出し、インタラクティブに答えるひとがたキャラクター「ニューロベイビー」を開発した結果について述べている。これは、技術的にはニューラルネットワークによる話者の感情認識とそれに反応する顔の表情合成からなり、感情を介した人間・コンピュータ間の新しいコミュニケーション形態の提案となっている。

 第4章は「感情を用いた異文化間のコミュニケーション」と題し、異文化間のコミュニケーションの仲介役としての感情キャラクター「ネットワークニューロベイビー」を開発した結果を述べている。すなわち、まず異文化間のコミュニケーションにおける感情の役割を考察し、異文化コミュニケーションの仲介役としての感情キャラクターの位置付けを行なっている。これをふまえて感情キャラクター「ネットワークニューロベイビー」を開発し、異文化間感情翻訳実験を行った内容について述べている。

 第5章は「マルチモーダルに感情を認識・生成する擬人化キャラクターの生成」と題し、第3章におけるニューロベイビーを進化させて非言語コミュニケーション能力を強化したマルチモーダル擬人化キャラクター「ミック」を開発した結果について述べている。ニューロベイビーのような感情キャラクターからマルチモーダルな擬人化キャラクターへ進化させてより高度なコミュニケーションを生成するためには、感情モデルのデザインの複雑化が要請される。マルチモーダル擬人化キャラクター「ミック」では、認識できる感情の個数を2倍にするとともに、キャラクターの反応パターンも顔の表情から全身のアクションへ高度化している。また、音声のみならずジェスチャーも含めたマルチモーダルに感情認識する機能を付加している。

 第6章は「声の感情と言葉の意味に対応するインタラクティブポエム」と題し、感情を中心としたノンバーバルインタフェースと言語的なバーバルインタフェースの融合を目指して開発された「インタラクティブポエム」について論じている。この「インタララクティブポエム」は、声からの感情認識機能に言語的な対話認識機能を付け加えて、コンピュータとの間の声による感情のやりとりだけではなく、言葉の意味も同時に理解して連歌形式で人間と即興詩を作れるコンピュータ詩人システムである。詩を朗読しあうことによって互いの感情移入を図ることを特徴としており、対話型の新しいインタフェースデザインとして注目される。

 第7章は「感情に反応するインタラクティブシアターの構成1」と題し、物語性をもつコンピュータドラマと観客の間の感情移入型インタラクションの実現を目指した「インタラクティブシアター」について述べている。すなわち、本研究で提案された感情に反応する擬人化キャラクターが物語に登場して観客自身が主人公を演じることによって没入感と感情移入が図られ、またドラマの進行そのものにも観客が参加できるインタラクティブストーリーの導入が試みられている。本章では、特にインタラクティブな物語の進行をコントロールするスクリプト設計の基本概念について詳述している。

 第8章は「インタラクティブシアターの構成2」と題し、第7章で述べた第1次システムを改良し、より自由なインタラクティブ性を実現した第2次インタラクティブシアターシステムについて述べている。ここで改良された点は、複数人の参加が可能なシステムの構成と、任意の時点でのインタラクション(anytime interaction)が可能なメカニズムの実装であり、さらにはより複雑なインタラクティブシナリオの実現を可能にすべく、スクリプト記述についてもその高度化が図られている。さらに、この概念に基づくコンテンツ例として「ロミオ&ジュリエット黄泉にて」を制作した結果について述べている。

 第9章は「結論」であり、本研究の絵括と今後の展望について述べている。

 以上を要するに、本論文は、コンピュータと人間の間のより感性的なコミュニケーションを目的として、感情を中心とするノンバーバルインタフェースの設計指針を明らかにして、これを様々なインタラクションシステムとして具体的に実現した結果について述べたものである。そこでは従来の工学的なアプローチにとどまらず、アートからのアプローチも重要視されており、両者が融合したこれからの電子情報工学の進展に寄与するところが少なくない。

 よって、著者は博士(工学)の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク http://hdl.handle.net/2261/51117