学位論文要旨



No 215740
著者(漢字) 中臺,一博
著者(英字)
著者(カナ) ナカダイ,カズヒロ
標題(和) アクティブオーディションによる自然なヒューマン・ロボットインタフェースの実現に関する研究
標題(洋)
報告番号 215740
報告番号 乙15740
学位授与日 2003.07.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第15740号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 安藤,繁
 東京大学 教授 石川,正俊
 東京大学 教授 稲葉,雅幸
 東京大学 教授 坂井,修一
内容要旨 要旨を表示する

本論文では,将来,ロボットが人間と共生する上で重要なインタフェースであるロボット聴覚について論じる.特に,人間が知覚向上のために行うアクティブな動作に注目し,ロボットの音源定位・分離・認識を向上させるモデルを提案し,その工学的な実現,ヒューマン・ロボットインタラクションへの応用を通じて,有効性を明らかにする.

ロボットを対象とした知覚機能の研究のうち,聴覚は,人間とのソーシャルインタラクションで最も重要な機能の一つであるにもかかわらず,視覚研究と比較し,あまり盛んではない.また,実環境・実時間でロボット聴覚を実現するための問題点は指摘されてきたものの,これらの課題を体系的にまとめた報告はなかった.

そこで,本論文では,まず,新たにロボット聴覚研究を定義し,ロボット聴覚機能の課題を体系的に整理した.そして,アクティブな動作を様々なセンサ情報と統合することにより,知覚を向上するアクティブパーセプションがロボット聴覚の向上にも本質的であると捉え,アクティブな動作を利用し,聴覚情景分析を向上させる枠組みとしてアクティブオーディションを提案した.さらに,これを実現するための様々な課題の中から,(1)ロボット自身が発生する音の抑制,(2)未知環境における音の知覚,(3)特定の音に特化しない一般の音の理解・認知機構(一般音理解),(4)様々なセンサ情報の統合という4つの課題に取り組み,図1に示すロボット聴覚システムを構築した.構築したシステムは,大きく3つのサブシステム「動作時のノイズキャンセル」,「視聴覚を統合した実時間複数人物追跡」,「アクティブ方向通過型フィルタ(Active Direction-Pass Filter,ADPF)による音源分離」から構成されており,複数の音源が序在し,かつ動作している場合でも,ヒューマノイドロボット(SIG)のカメラ,マイク入力から,動作時のノイズをキャンセルし,ロボット自身のアクティブな動作,視聴覚統合を利用して,これらを定位・分離・認識することが可能である.

動作時のノイズキャンセル部は,課題(1)に対応し,外装によって,ロボットに音響的な身体生を構築し,内部音抑制を行う.具体的には,まず,音響的に隔離されたロボットの頭内部に一組,外装の耳位置に一組の,計4本のマイクロホンを設置する.次に,外装の音響測定結果をテンプレートとして利用し,ヒューリステックルールにより,動作時に最も問題となるバーストノイズのみをキャンセルするフィルタを構築した.これにより,信号処理的なノイズキャンセル手法に見受けられる位相情報の歪みを伴わない新しいノイズキャンセルを実現し,ロボット動作時に生じるノイズのため,聞くために一旦停止しなければならいという“stop-perceive-act”原理を緩和した.

実時間複数人物追跡部は,課題(2),(4)に対応する.「音源定位」,「顔認識・定位」,「話者同定」,「ステレオビジョン」,「モータ制御」,「アソシエーション」,「アテンション制御」,「ビューワ」の8モジュールから構成され,マイクロホンとカメラから得られる視聴覚情報を統合し,複数人物の定位・追跡が可能である.「音源定位」では,未知環境でも2本のマイクロホンで音源定位を可能にする聴覚エピポーラ幾何を提案した.両耳聴の研究では,頭部伝達関数(Head-Related Transfer Function,HRTF)から導出される両耳間位相差(IPD)や両耳聞強度差(IID)を用いて音源定位を行うことが一般的である.HRTFは,通常,無響室で,各方向からのインパルス応答測定によって取得する頭部形状の音響特性を表す伝達関数である.しかし,環境が変わる毎に再測定が必要であり,離散的な関数であるため連続的な定位が難しいため,ロボットへの搭載には適していない.聴覚エピポーラ幾何はIPDを計算的に求めることができるため,測定が不要である.このため,高速に連続的な定位が可能であり,ロボットに搭載し,音源追跡を可能にした.さらに,より一般的な環境でのロバストな動作を目指し,IPD,HD,調波構造といった複数の聴覚的な手がかりをDempster-Shafer理論を用いて統合するモデルを提案した.部分的に歪んだ音響信号の定位や4音源の同時定位を通じて,聴覚エピポーラ幾何の有効性,聴覚情報統合の有効性を示した.

「音源定位」以外にも,「顔認識・定位」,「ステレオビジョン」といったモジュールからは位置や名前情報が抽出される.「アソシエーション」では,これらの情報の時間の流れを考慮し,その種類ごとにストリームを形成する.視聴覚統合は,ストリームベースのシンボリックな統合手法であり,同じ人物に由来する複数のストリームを一つに束ねたアソシエーションストリームの生成により行われる.提案した統合法は理論的に最適性を保障するわけではないが,人物追跡や視聴覚情報の曖昧性の相互に解消できることを示し,実環境で十分有効であることを示した.また,様々な情報を階層的に統合し,スケーラビリテイの高い実装が容易な統合手法であることを示した.

音源分離部は課題(3)に対応する.日常,耳にする音は複数の音源からの音が混じった混合音であることから,音源分離は一般的音理解で重要な機能である.本論文では,音声認識の前処理として実時間・実環境で使用することができる分離能力を目指し,特定方向の音響信号を抽出するADPFを提案した.ADPFは,音源定位情報を入力とし,周波数領域でのサブバンドセレクションにより,高速でマイクロホンの数以上の分離能力を有する.ロボット正面の音源定位精度は周辺部に対して高いという聴覚中心窩ともいうべき現象を示すことから,ADPFは,正面方向では狭く,周辺部では広くなるような通過幅制御を行う.反響のある部屋で,3話者同時発話に対して9dB程度のノイズ除去率を示した.また,ADPFの通過幅やロボット方向のアクティブな制御が音源分離を向上させることから,音源分離におけるアクティブオーディションの有効性を示した.

システムの応用として,“自然な”ヒューマンロボットインタラクションの実現についても扱った.ロボットに備わったマイクロホンを用い,複数の人物(音源)が同時に存在する場合や音源やマイクロホンの位置が動的に変化する場合であっても積極的な動作を行って,フレンドリな音声によるインタラクションを行うことが“自然な”インタラクションであると定義し,同時発話の孤立単語認識,およびパーソナリティを導入した選択的注意制御によるインタラクションを行った.

一般に特定音声を完全に分離することは難しく,信号の歪みやノイズの混入が避けられない.そこで分離音声の孤立単語認識では,音源方向,話者ごとに音響モデルから得られる複数の認識結果と顔認識から得られた名前情報に対し,確率ベースの統合を行う手法を提案した.これにより,同時3話者発話の音声認識が可能であることを示し,音声認識におけるアクティブオーディション,視聴覚統合の有効性を示した.

パーソナリティを導入した注意制御では,心理学で用いられるインターパーソナル理論を用い,friendly,dominant,hosti1e といったパーソナリティを受付やコンパニオンといったケースに適用した.人間とのインタラクションは,非口語でパッシブなインタラクションであっても,話者方同を向くことによって,フレンドリなインタラクションや,人々の興味を喚起させるという意味で重要であることを示した.

本論文には,3点の意義がある.1点目として,ロボット聴覚という研究の確立である.人間では,二つの耳を使って,自分や音源が移動する場合でも,定位・分離・認識や,カクテルパーティ効果として知られるような選択的注意は一般的であるが,従来の聴覚処理では定位・分離・認識に対して広範囲な研究が行われてきたに

もかかわらず,音源やマイクの動作を前提とした研究は,明示的に行われていなかった.そこで,アクティブな動作を伴った聴覚処理“アクティブオーディション”を提唱し,ロボット聴覚をロボティクス,AI,信号処理を複合的に扱う新しい研究テーマとして新たな研究分野として定義し,その課題を明確にした.

2点目は,応用的な観点として,ロボット聴覚システムを工学的に実装し,より自然なヒューマン・ロボットインタフェースを実現したことにある.従来の聴覚機能を備えたロボットでは,混合音や自身が発生するノイズに対する考慮が不十分であり,実環境で聴覚による自然なヒューマン・ロボットインタフェースを実現する研究はあまり行われていなかった.

3点目は,アクティブな動作を伴った聴覚処理のモデル化とその評価である.聴覚心理の分野では,動作による聴覚の向上が指摘されているが,その評価は難しかった.本論文では,動作を伴う音源定位・分離・認識のモデル化を行い,2本のマイクロホンを備えたロボットを用いた評価を通じて,アクティブな動作がロボット聴覚向上に本質的であることを示した.

本論文におけるアクティブオーディションを利用した知覚の向上は,動作が可能な対象であれば,ロボット以外の分野での応用が可能である.本論文で示した考え方や手法はロボットにとどまらず,様々なヒューマンマシンインタフェースを高度化する要素技術としても発展し得るものである.

ロボット聴覚システムの構成図

審査要旨 要旨を表示する

本論文は、「アクティブオーディションによる自然なヒューマン・ロボットインタフェースに関する研究」と題し、11章からなる。将来、ロボットが人間と共生することが期待されるが、そのとき人間とのインタラクションに重要な知覚機能は聴覚である。しかし、従来、ロボットの聴覚機能は余り研究されてこなかった。本研究は、ロボット聴覚を対象としてアクティブオーディションを提案するとともに、そのロバストな実現技術について論じたものである。

第1章「序論」は、研究の背景、目的を述べるとともに、本論文の構成についてまとめたものである。

第2章「ロボット聴覚の課題と現状」は、ロボット聴覚研究の定義と課題について整理するとともに、2本のマイクを用いた実環境ロボット聴覚の実現には、体を動かして聴くというアクティブオーディションが鍵となることを述べ、それに必要な課題を議論している。

第3章「ロボット聴覚システム」は、アクティブオーディションを効果的に利用できるロボット聴覚システムの全体像を示すとともに、そのテストベッドとして開発したヒューマノイドロボットSIGを紹介しその諸元と製作過程を説明している。

第4章「動作時のノイズキャンセルと音源同定」は、アクティブオーディションによるロボットの動作のモータノイズが聴覚処理を困難にするという問題を取り扱い、外装の内外にマイクを設置してノイズキャンセルを行う手法を提案している。更に実環境下での連続的な音源定位をおこなうため、ステレオビジョンで用いられるエピポーラ幾何を聴覚に適用した聴覚エピポーラ幾何を提案し、実験を通して音源定位が可能であること、ノイズキャンセルが有効であること、また、音源方向に向くという動作が音源定位の精度を向上させることを示し、両耳聴で一般的に使われる頭部伝達関数手法の問題点である部屋の反射が存在しても、また連続的に音源が動いても、その定位が可能であることを示している。

第5章「聴覚情報の統合による音源定位と追跡」は、より一般的な環境でのロバストな動作を目指して、実時間、実環境での調波構造を持った複数音源の定位・追跡を扱ったもので、前章の手法を拡張し、両耳間位相差、両耳間強度差、調波構造などの情報を統合することでロバストな定位手法を提案し、評価することによってその有効性を示している。

第6章「視聴覚統合による実時間人物追跡」は、音源定位・追跡処理を、顔認識・定位をおこなう視覚処理と統合して、実環境でロバストに複数人物を実時間で追跡できるシステムをヒューマノイドSIG上に実現したもので、システム内の聴覚情報、視覚情報を時間的な流れのストリームとして表現し、視聴覚ストリームがその距離に応じてアソシエーションをおこなうメカニズムを導入することで統合をおこなっている。この統合により、聴覚のあいまい性だけでなく、視覚視野の狭さやオクルージョンなどの視覚情報のあいまい性も解決できることを示している。

第7章「アクティブ方向通過型フィルタによる音源分離」は、音源定位・分離性能が正面方向では高く、横方向にゆくに従って低くなるという現象を積極的に利用し、フィルタ通過帯域を正面方向では狭く横方向では広くなるようアクティブに制御することによって、音源分離でもアクティブな動作が分離性能向上に有効であることを示している。実験では、3話者同時発話の分離性能はノイズ除去率で9dBであること、最大分離音源数は3から4音源程度であることを実証している。

第8章「複数の音響モデルを利用した音声認識」は、自然なインタラクションを実現するためのロボット聴覚の応用として、前章のアクティブ方向通過型フィルタで分離した分離音声の孤立単語認識を扱い、同時3話者発話の音声認識を達成している。

第9章「ヒューマンロボットインタラクションへの応用」は、ロボット聴覚の応用として、friendly, dominant, hostileなどのパーソナリティを取り入れた注意制御を扱い、受付やコンパニオンなどに適用し人間の反応を分析することにより、人間とのインタラクションでは話者の方向を向くことが重要であることを示している。

第10章「考察」は、この研究の意味や今後の課題について考察したものである。

第11章は結論である。

以上、これを要するに本論文は、今後、人間と共生することが期待されるロボット実現に重要となる聴覚機能について論じ、アクティブオーディションを提案してその聴覚処理のモデルを与え、その実行に本質的なノイズキャンセル、音源定位、音源分離、分離音の音声認識などの手法を与え評価することによってその有効性を示したもので、電子情報工学上貢献するところ少なくない。

よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/51188