学位論文要旨



No 122812
著者(漢字) 西村,義隆
著者(英字)
著者(カナ) ニシムラ,ヨシタカ
標題(和) ロボットによるプレゼンテーション及び音声インタラクションの実現に関する研究
標題(洋)
報告番号 122812
報告番号 甲22812
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第142号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 原島,博
 東京大学 助教授 峯松,信明
 東京大学 助教授 佐藤,洋一
 東京大学 助教授 苗村,健
内容要旨 要旨を表示する

 近年,ロボットが注目を浴びており,研究・開発が盛んに行われている.特に,ヒューマノイドロボットはその姿形から,人間と同じような仕事をこなすことが期待されていると考えられる.ロボットはさまざまなモダリティを有しており,ネットワークにも接続可能なことから,情報提供を行うタスクは有効な活躍分野であると考えられる.実際にヒューマノイドロボットは受付や案内などの分野で数多く活躍している.同様に情報の提供を行うタスクとして,プレゼンテーションがある.スクリーンを用いたプレゼンテーションは,音声による情報提供のみならず,資料を交えた情報提供も可能である.本論文ではヒューマノイドロボットによるプレゼンテーションが,ロボットによるタスクの有効な一分野と捉え,これを実現する方法を提案することを目的とする.

 第一に,簡単な記述によりコンテンツを作成できる機構について検討した.ロボットの操作を行うためには,通常,アセンブラなどを用いて作られる制御プログラムが必要である.制御プログラムは複雑であり,専門家でないとプログラムを作ることは難しい.しかし,ロボットを身近なものとしていくためには,簡単な機構で操作できることが望ましい.スクリーンエージェントを用いたコンテンツの生成に関する研究領域では,記述言語を用いて簡単にマルチモーダルコンテンツを作成するための試みが行われている.ロボットでも,スクリーンエージェントと同じような記述言語を用いることで,プレゼンテーションコンテンツを作成することが可能であると考えられる.そこで,スクリーンエージェントを用いたマルチモーダルプレゼンテーションコンテンツを作成するためのMPML(Multimodal Presentation Markup Language)をヒューマノイドロボット用に拡張し,MPML-HR(MPML for Humanoid Robots)とすることで,簡単な記述でロボットによるプレゼンテーションコンテンツを作成することを実現した.拡張にあたっては,存在する空間の違いを吸収することに留意した.具体的には,移動命令については,位置を表す二次元の座標の他,ロボットの体の方向を表す引数を加えた.スクリーン上の座標を指し示す対象指示命令はスクリーンエージェントでは移動命令によって実現可能であるが,ロボットでは新たな命令を用意することで対応した.また,ロボットは動作がなく,発話のみがあると不自然であるため,発話と動作を同時に実行できる機構を実現し,発話命令のみがあり,動作命令がないときは,首を自動的に動かすことにより不自然さを解消した.

 第二に,音声インタラクションを含むプレゼンテーション機構について検討した.人間によるプレゼンテーションでは,質疑応答を行うことで不明な点を解消し,理解が深まることから,ヒューマノイドロボットによるプレゼンテーションでもインタラクション機能があることが望ましい.コンテンツの記述容易性というMPML-HRの長所を活かしたインタラクション機能の導入ができるよう検討を行った.MPMLにはインタラクションに関する機能が用意されているが,音声入力を受け付ける箇所は特定の部分に限られている.MPMLの他にもインタラクションコンテンツを作成する記述言語はいくつか提案されているが,例えば,Voice XMLは音声によるインタラクションのみを想定しており,XISLではプレゼンテーションに特化していないため記述量が増える.そこで,既存の記述言語を用いず,MPML-HRを拡張することでインタラクション機能を導入することとした.

 プレゼンテーションにおける音声インタラクションでは,聞き逃した箇所の再度の説明や,既に知っている話題の省略,分かりにくい箇所の質問などが予想される.これらの要求に対応すべく,説明箇所の遷移を用いることでインタラクションを実現した.再度の説明では,前の説明ポイントに戻り,説明の省略は省略対象の後の説明ポイントに遷移することで実現できる.また,分かりにくい箇所の説明はコンテンツ作成段階で想定質問コンテンツを構築しておくことで実現可能である.MPML-HRでは,ページという概念があり,プレゼンテーションにおけるスライド1枚がコンテンツ記述における1ページに相当する.プレゼンテーションでは通常,スライドごとに1つの話題があるため,説明箇所の遷移を行うにはページ単位で行うことがよいと考えられる.そこで,ページの先頭への遷移により音声インタラクションを実現した.コンテンツの作成段階では,音声認識を受け付ける認識文法や認識を受け付けた際の遷移先の記述を行う.コンテンツの実行段階では,音声認識エンジンを常に走らせておき,音声認識が行われるとシステムへの割り込みが行われ,説明箇所が遷移する.

 音声インタラクションでは,音声認識結果に誤りが発生すると予期せぬ対応を行い,意図しない内容となる場合がある.この問題に対応すべく,音声認識誤りに頑健な手法についても検討を行った.音声認識結果に対する信頼度を用いることで,信頼度が低いものは棄却することとした.しかし,信頼度が低いもの全てを棄却してしまうと,何か発話しても無視してしまい,インタラクションが不可能になる.そこで,聞き返しや確認を行う動作を導入した.聞き返しでは,ロボットから再度の発話を要求する.これは,発話があったことは認識しているが,認識結果の信頼性が低い場合に有効である.確認では,認識結果が正しいか,はい,いいえの二者択一の答えが得られるような問い返しを行う.これは,受理するには信頼性に欠けるが,第一候補の認識結果である確率が高い場合に有効である.これらの音声認識誤りへの対応に加え,誤認識により誤った箇所へ説明が遷移した場合には,遷移後一定期間内はユーザからの指摘により,もとの説明箇所へ戻る機構を実装することで,音声認識誤りに頑健なインタラクションを実現した.

 第三に,音声インタラクションに必要な音声認識性能を向上させることについて検討を行った.ロボットによる音声認識では,さまざまな雑音の混入により認識性能が低下することが問題である.これを解決するため,接話マイクを用いた音声認識が行われるが,ユーザにとっては煩わしく,ロボット自身のマイクで行うことが理想である.ロボットに混入する雑音には,他の音源から出る雑音,部屋の残響,ロボット自身が発する動作雑音がある.特にプレゼンテーションタスクではロボットの動作が多い.動作音はロボットのマイクに近い位置から発せられるため相対的に雑音レベルが大きく,認識性能に大きな影響を与える.そこで,ロボットの動作音に頑健な音声認識手法についての検討を行った.

 ロボットの動作音には定常的な雑音成分と非定常的な雑音成分がある.定常的な雑音に対しては,スペクトル領域において推定雑音を減算するSS(Spectral Subtraction)と音声に雑音を重畳したデータを用いて音響モデルを学習するマルチコンディション学習による音響モデルを用いることで効果があると考えられる.しかし,雑音の大きな環境では,SSによりSNR(Signal to Noise Ratio)は向上するものの,歪みが発生する.この歪みが認識性能の低下を引き起こす.また,SSは雑音を除去する処理であるのに対し,マルチコンディション学習による音響モデルは雑音を含んだ音声を学習させている.これを単純に組み合わせると認識性能が低下する.そこで,SSによる歪みを抑えるため白色雑音の重畳を行い,SSと白色雑音重畳後の音声データを用いて音響モデルを学習させることでこの問題を解決した.白色雑音の重畳はSNRを低下させ,一見認識性能が低下するようにも思えるが,SSによる引き残し成分を平坦化することで認識性能が向上した.

 ロボットの非定常成分への適応には,雑音に埋もれた信頼性の低い周波数帯域をマスクし,その帯域情報の認識結果への寄与を小さくすることで認識性能を向上させるMFT(Missing Feature Theory)を用いることについて検討した.MFTでは,マスクの生成をいかに行うかが重要な問題であり,マスクの推定には,雑音の推定が必要である.ロボットは自己の動作情報を取得することが可能であり,同じ動作であればほぼ同じ動作音が出力される.つまり,動作情報を用いることで動作音の推定は可能である.そこで,動作音を推定することでMFTを有効に活用することができると考え,非定常成分への適応に用いた.雑音の推定には,あらかじめ収録した雑音と入力雑音を時間領域で一致させることで推定を行った.時間領域での一致の際には,入力信号の動作雑音以外が混入している領域を,振幅の大きさから推定し,この領域を除いてマッチングした.この手法を用いることで,音声などの動作音以外の音を含む入力信号を用いても適切な雑音推定を行うことができた.実験の結果,提案手法を用いることで,従来から有効とされているマルチコンディション学習による音響モデルを用いた手法よりも高い認識性能を達成した.また,教師なしMLLRとの組み合わせにおいても提案手法の有効性を確認した.

 提案するプレゼンテーションシステムを実現するため,二足歩行ロボットとして知名度の高いホンダASIMOを用いて実装を行った.

審査要旨 要旨を表示する

 本論文は「ロボットによるプレゼンテーション及び音声インタラクションの実現に関する研究」と題し,6章より成る.近年注目を集めているヒューマノイドロボットの一活躍分野としてプレゼンテーションに着目し,非専門家でも簡単で容易なコンテンツ記述で音声インタラクションを含むプレゼンテーションを実現する枠組みと,音声インタラクションにおいて問題となる音声認識誤りへの対応技術を開発している.

 第1章「序論」では,日本を中心にして近年研究開発が盛んに進められているヒューマノイドロボットにプレゼンタの役割を果たさせ,マルチモーダルなコンテンツを実現する枠組みを実現するという,本研究の目的を述べている.

 第2章「ロボットの研究開発」では,本研究の背景となるヒューマノイドロボットの開発の現状について記している.ヒューマノイドロボットには身体表現や音声などのモダリティを持つものが多く,これらのモダリティを有効に活用する受付や案内などのタスク設定が数多く行われている.しかし,プレゼンテーションをタスクとしたものは少なく,特に簡単な記述でコンテンツを作成する枠組みについての実現例はないことを述べている.

 第3章「ヒューマノイドロボット用プレゼンテーション記述言語」では,ヒューマノイドロボットによるMPML-HRと名付けたプレゼンテーション記述言語の提案と実装を行っている.キャラクタエージェントを用いるコンテンツ生成に関する分野では,幾つかのコンテンツ記述言語が開発されている.このようなコンテンツ記述言語を用いることで,C言語などの一般的なプログラミング言語を用いる場合と比べ,簡単に効率よくコンテンツを作成することが可能である.しかし,ロボットの分野では簡単な機構でマルチモーダルプレゼンテーション・コンテンツを生成できるような記述言語が存在しない.そこで,キャラクタエージェントを用いるコンテンツ記述言語を拡張することで,ヒューマノイドロボット用のプレゼンテーションコンテンツ記述言語MPML-HRを提案している.また自然なプレゼンテーションの実現についても考慮し,発話と動作が同時にできる機構と,頭部を自動的に動作させる自律動作機構の導入を行っている.世界初のヒューマノイドロボットであり最も著名なAsimoの動作環境でこの記述言語MPML-HRを実装,動作させている(ホンダ研究所との共同研究による).これにより機能を実証すると共に,キャラクタエージェントとの比較による心理学的評価を行っている.その結果,ヒューマノイドロボットによるプレゼンテーションはより印象的となり,また実空間で商品説明なども可能なため,有効性があることを示している.

 第4章「インタラクション機構の導入」では,提案のプレゼンテーションコンテンツ記述言語の記述容易性という長所を活かしつつ,インタラクション機構を導入している.このインタラクションでは,コンテンツ作成者があらかじめ想定した質問に答えることができることを目的とし,説明箇所を遷移することで実現している.また音声インタラクションを含むアプリケーションで問題となる音声認識誤りのシステムレベルでの解決方法を導入している.具体的には,音声認識結果に対する信頼度に応じて棄却・聞き返し・確認・受理を行うこととし,誤った遷移をしてしまった場合にはユーザからの指摘により遷移前の状態に戻すこととしている.インタラクションの実現のため,プレゼンテーション記述言語に新たなインタラクションに関する命令群を導入し,ロボットの記号の対話行動制御モジュールを用いた実装を行っている.そして,インタラクションを含むその他のコンテンツ記述言語との比較を行い,プレゼンテーションコンテンツについては提案の記述言語が容易な記述を実現できることを示している.

 第5章「ロボットの動作音に頑健な音声認識」では,ロボットの動作音に頑健な音声認識手法を提案している.音声インタラクションを含むアプリケーションでは,音声認識誤りへの対応が重要な課題である.特にプレゼンテーションでは動作音が発生し,この雑音はマイクに近い位置から発せられるため相対的に大きく,音声認識性能を低下させる.この問題に対処すべく,動作音は推定可能である点に着目し,Missing Feature Theoryに基づいた手法を考案している.動作音をあらかじめ収録しておき,この雑音と現在発せられている雑音を時間領域でマッチングすることにより雑音を推定し,Missing Feature Theoryで必要となるマスクの生成を行っている.またこの手法では,従来から有効な手法として用いられているマルチコンディション学習による音響モデルを用いた手法とSpectral Subtractionを用いた手法とを,白色雑音の重畳を行うことで有効に組み合わせ,加えてMissing Feature Theoryに基づいた処理を行うことで,従来手法よりも高い認識性能を得ている.最後にシステムへの組み込みを視野に入れたリアルタイムでの実装法について示している.

 第6章「結論」では,本論文の成果をまとめ,ロボットによるプレゼンテーションについての展望について述べている.

 以上を要するに,本論文はヒューマノイドロボットによる音声インタラクションを含むプレゼンテーションコンテンツの簡単で容易な記述による実現という課題に対し,中位レベルの記述言語を導入し,ヒューマノイドロボットに実装することで,実現性を実証的に提示している.この実現に際し,記述容易性を実現するため,ロボットの動作に応じた命令の導入と,インタラクションにおいて説明箇所への遷移による実現,さらに音声認識誤りへの対応を行うため,システムレベルでの聞き返しや誤り遷移からの復帰,音声認識レベルでのロボット動作音への適応などの点で新技術を開発している.これらはヒューマノイドロボットの新しい活用領域を拓く意味で,電子情報学上貢献するところが少なくない.

 よって本論文は博士(情報理工学)の学位論文として合格と認められる.

UTokyo Repositoryリンク http://hdl.handle.net/2261/25845