学位論文要旨



No 122816
著者(漢字) 深野,亮
著者(英字)
著者(カナ) フカノ,リョウ
標題(和) 多様な物体操作行動を対象としたインタラクティブ模倣学習システムの構成法
標題(洋)
報告番号 122816
報告番号 甲22816
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第146号
研究科 情報理工学系研究科
専攻 知能機械情報学専攻
論文審査委員 主査: 東京大学 教授 國吉,康夫
 東京大学 教授 佐藤,知正
 東京大学 教授 稲葉,雅幸
 東京大学 助教授 森,武俊
 東京大学 講師 原田,達也
内容要旨 要旨を表示する

技能を持った人間から,観察と試行錯誤を通して技能を獲得するロボットによる模倣学習を実現するためには,並列に動作する反射的な応答を実行する低レベルな複数のモジュールと,モジュール群の相互作用によって状況にたいして適切な応答が選択される構造が必要である.

技能をロボット上で取り扱う上での大きな問題は,技能に含まれる操作をどのようにして実現するのかと,操作をどのような状況において適用するのかという問題に大まかに分割することが出来る.従来人間の技能をロボットによって実現するという研究では,技能を記述可能であるという前提に基づき,いかに効率良く記述するかという試みがなされてきたが,これは技能実現に必要とされる記述することが困難な暗黙知という概念が取り扱われていない.また,従来のロボットによる模倣学習を実現する研究では,単一の技能のみに注目し、複数の技能を持つロボットが状況に応じて適切な行動を実行するという課題は試みられていない.そこで本論文においては明示的に記述を行わないという条件のもと,状況に応じて適切な行動を実行するという技能を実現することを試みた.

模倣学習は,既に技能を持った被模倣者を参考にし,試行錯誤を行いながら模倣者が技能を獲得するという過程である.ロボットにおいては被模倣者が技能を記述するという暗黙知に関する問題を回避することが出来ると同時に,全くの無からロボットが技能を獲得するという広大な学習空間に関する問題も回避することが出来る.また模倣学習には常に新奇な技能を獲得するという性質が存在する.従ってロボットが模倣学習を実現するならば,効率良く技能を獲得すると同時に,将来的な可能性も確保することが可能となる.

本論文では,以上の性質を持つ模倣学習の中で核となる部分を分析し,これの工学的な実装に基づくロボットを用いて実験を行った.実験では,ロボット自身の動きに基づいて他者の行動を理解することによって,明示的な記述によらず操作と環境に対応する内部表現を獲得し,これに基づいて実行した模倣応答を人間が評価することで技能の成功した.この実験には模倣学習に必要な,ロボットと環境,人間と環境,ロボットと人間という3つの相互作用がすべて含まれている以上に基づいて,本論文はロボットが模倣学習を実現することが可能であることを示した.

2章,自律的に提示行動を観察し模倣学習を行うロボットの構成においては,動物に見られる模倣学習能力を検討し,模倣学習に必要な要素を明らかにした.また,新奇な動作を観察によって獲得するという従来の模倣の定義は,実際の模倣と比較してあくまで理想的な状態であると指摘を行い,新たに試行錯誤を導入した模倣の定義を示した.

模倣学習を実現するためには,被模倣者の意図を完全に理解する必要はなく,観察した被模倣者の振る舞い,道具,操作対象物に対して反射的な模倣応答を実行し,これら低次の複数の応答が統合され,徐々に高度な模倣となり真の模倣に到達すればよいことを示した.この考察に基づき,模倣に必要な入出力と,要素の結合について考察を行い,従来の状態遷移,並列緩結合プロセスより高い表現力を持つ模倣の構成論的仮説に基づく模倣アーキテクチャを提案した.提案する模倣アーキテクチャは一般のロボットアーキテクチャに見られるセンサ入力,モータ出力に加え,ロボット自身の動作を教師信号としてセンサ入力に対して学習を行った認識入力,ロボットの行動に対する人間の評価を意味する意図入力を持つことが特徴となっている.

3章,自律模倣学習を行うロボットの構成要素の実現においては,上記の提案に基づき,模倣学習ロボットシステムを構築するのに必要な,視覚認識システム,自律環境認識,自他行動の対応付けを構築した.

模倣学習においては事前に観察対象のモデル化を行っておくことは出来ないため,モデルによらない画像特徴を導入した視覚認識システムの構成を明らかにし,実際に動作するシステムを構築した.

この視覚認識システムを枠組とし,ロボットの動作プリミティブを教師信号とすることで,人間とロボットの身体に類似性があるという身体性の制約から恣意的な対応付けによらない,自他行動の自律対応付けを実現した.この認識を実現するために自他の区別を行わない画像特徴を設計した.これは人間の乳幼児に観察される自己と他者が未分化な認識を実現する.

さらに発展的な課題として,導入した画像特徴による特徴空間中で,特徴に基づいて観察対象を分類することで,自律的な視覚認識を,また手探りによって操作対象を探ることに適した特徴を提案し,この特徴に基づいて手探り対象を分類することで自律的な体性感覚認識を実現した.

4章,自律模倣ロボットを実現する実時間ソフトウェアの構成においては模倣の構成論的仮説に基づく表現力の大きい提案アーキテクチャについて検討を行い,ロボットソフトウェアとして実現を行った.本論文の仮説においては,センサ入力,モータ出力に加え認識入力,人間の意図入力が存在し,また,これらを入出力とする複数の並列要素と,並列要素同士の相互作用が必要であるため,そのデータフローは複雑であり,実現にあたってはデータフローを分析し安全性と高速性を両立する必要がある.

一方でロボットの能力向上は近年の汎用PCの計算能力向上に強く依存しており,汎用PCの開発傾向を無視することは難しい.この模倣と,工学的な二つの要請を満たすため,模倣のための実時間ソフトウェアをオブジェクトが並列に実行されるアクティブオブジェクトに基づいて実現した.今後の汎用PCの開発傾向がマルチコア化であるため,ロボットソフトウェアを並列プログラムとしておくことで,開発の進行に伴い単に計算能力が向上するだけではなく,模倣ロボットとしての能力が向上するといえる.

5章,構成要素の統合による多様な模倣応答の創発においては,3章,4章で実現した要素を実際のシステムとして動作させることで,単純な模倣応答を統合することで,状況に対して適切かつ多様な模倣行動が発生することを示した.これは状況に応じた技能を記述するという,暗黙知の観点から困難な問題を回避するため,要素の相互作用によって適切な行動が確率的に選択されるという解決を導入した.また状況に対して適切な行動は一意に定まらないという点からも,この確率的な選択は適切である.

6章,人間とのインタラクションによる模倣応答の意味獲得においては,5章で実現した多様な模倣行動を実現する確率選択の重みを人間の意図によって更新し,学習することを実現した.人間が提示する行動を学習対象として,行動の組合せを確率的に選択することで少数の学習から多様な模倣を実現したが,これによって本来禁止されている行動も実行してしまうという問題を孕むこととなった.これを解決するための情報はロボット内部には原理的に存在せず,既に技能を獲得している人間のみが所持している.

よってロボットの応答を人間が評価することによって,人間の意図をロボットに導入することが必要となる.これを解決するインタフェースとして音声に含まれる,肯定的,否定的な調子を抽出し教師信号とした.もし音声の言語情報を用いれば,言語とロボットの内部状態を対応させるという記号接地の問題に再び直面することになるが,本論文においては既に意味を持った音声の調子を利用することで問題を解決した.

以上によって,ロボットシステムは,少数の観察から,組合せによって多様な模倣を行い,意図にそぐわない行動は人間によって修正されるという,模倣学習を実現した.また以上の学習は全てインタラクティブであり,人間がロボットの行動に対し自由に割り込み,教示することが可能である点が大きな特徴となっている.

審査要旨 要旨を表示する

 本論文は「多様な物体操作行動を対象としたインタラクティブ模倣学習システムの構成法」と題し,7章からなる.その目的は,人間との自然なやりとりから技能を獲得するロボット機能,特に,人間の模倣学習の特徴でありながら従来研究の視野にない,応答の多様性とインタラクティブ学習という重要な新機能に焦点を当てて実現し,構成法を提示することである.従来のロボット模倣学習では,個々の提示動作をロボット動作に再適合させる,いわば一対一の変換が主流であった.しかし,実世界中で複数物体に関わる模倣動作は一意に定まるものでなく,多様な試行を提示し評価を受けることで人間の意図に沿うことが不可欠であり,これが人間の模倣学習の特徴でもある.本論文では,相手の動作,道具,操作対象物,の各々に対する反応動作が並列に生成され,それらが適応的に選択・統合されて模倣応答となる,という全く新しい模倣機能構成を提案し,並列状態遷移プロセス群と,学習型確率表現に基づく行動統合モジュールにより実現した.これに,自他の動作を同一視する視覚特徴抽出機能,物体や動作の学習的な視覚認識機能,音声評価信号により動作統合確率を更新する学習機能などを提案し統合することで,手順に制約のない多様なやりとりを通した模倣学習機能を実現し,もって論拠とする認知科学的仮説を構成論的に実証した.

 第1章「序論」では,本論文における背景,目的,構成について述べている.

 第2章「自律的に提示行動を観察し模倣学習を行うロボットの構成」では,認知科学,脳科学などに基づく,模倣学習の構成論的仮説と,これに基づくロボットシステムの構成について述べている.教示者の意図を汲む以前の反射的模倣として,教示者による提示動作,物体操作に含まれる道具,操作対象物の機能,の各々に対応する応答動作があり,これらを疑似模倣と呼ぶ.意図を汲んだ高度な模倣は,提示された行為の諸要素に対応して,複数の疑似模倣が同時に活性化し,それらが相手の意図を反映した形で統合されることで発現する.この模倣機能構成モデルを実現するためのシステムアーキテクチャについて,過去の様々な提案を踏まえつつ比較検討し,並列状態遷移プロセス群と学習型確率表現に基づく行動統合モジュールからなる構成を提案し,人間からの音声評価信号により統合モジュールが学習するものとした.

 第3章「自律模倣学習を行うロボットの構成要素の実現」では,多様なインタラクティブ模倣学習のための視覚認識システムの実現について述べている.人間型ロボットで複数の運動単位を実行し,これを自ら観察することで視覚認識の学習を行う.新たに提案した,対面状況における自他の位置に対して不変な視覚特徴量と,人間とロボットの身体の類似性により,視覚学習結果は人間の振る舞いの認識と自己の振る舞いの双方に有効であり,両者を対応づける機能を持つ.

 第4章「自律模倣ロボットを実現する実時間ソフトウェアの構成」では,模倣インタラクションを支えるための,実時間ロボット制御ソフトウェアの構成について述べている.ここでは複数の疑似模倣の同時並列活性化,疑似模倣の統合モジュール,疑似模倣によるロボット制御のための実時間性の確保,およびこれらの実行におけるクリティカルパスの解析などに基づき,安全性と高速性を両立する並列プログラムを実現した.

 第5章「構成要素の統合による多様な模倣応答の創発」では,前述の視覚システムと実時間ソフトウェアを統合し,本論文の目的とする模倣学習の前提となる多様な振る舞いの実現について述べている.複数の擬似模倣モジュールからの出力を確率的に統合するモジュールの具体的な実現を提示した.このモジュールの機能により,提示された物体操作環境に対して,適切かつ多様な模倣行動が発生することを実験的に確認した.

 第6章「人間とのインタラクションによる模倣応答の意味獲得」では,人間との自然なやりとりからのロボットによる技能獲得の実現について述べている.相手の動作,道具,操作対象物の組み合わせに対して任意性のある模倣応答を,相手からの評価信号により適応的に変化させることで,相手の意図に沿ったものに修正する必要がある.このため,音声に含まれる情動的信号を抽出し,これに基づき前述の統合モジュールの確率値を更新する学習を実現した.統合システムの実験では,手順が限定されない多様なやりとりと音声評価により適切な模倣を行う学習が可能なことを示した.応答の多様性を顕著に表す結果として,人間の模倣にも特徴的な,循環反応,試行錯誤,誘導といった明示的に組み込まれていない振る舞いが創発した.

 第7章「結論」では結果についてまとめ,吟味した上で,人間とのやりとりによって技能を獲得する模倣学習システムのために残された課題と将来の発展について述べている.

 以上要するに,本論文は自然なやりとりから技能を獲得するロボットシステムを,人間の模倣能力に関する知見に基づき新たに提案した機能構成モデルと,それが要求する新たな認識・学習機能およびシステムアーキテクチャにより実現し,システムの構成法を示した.これは,将来の人間共存ロボットに不可欠な模倣学習機能に,多様なインタラクションという新たな側面を加えたものとして重要であり,本論文はその実現法を示すことで知能機械情報学の発展に貢献したものである.よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク