学位論文要旨



No 120475
著者(漢字) 劉,宏偉
著者(英字)
著者(カナ) リュウ,ホンウェ
標題(和) 階層的遺伝的プログラミングを用いた進化型ロボットに関する研究
標題(洋) Evolutionary Robotics by Means of Layered Genetic Programming
報告番号 120475
報告番号 甲20475
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第95号
研究科 新領域創成科学研究科
専攻 基盤情報学専攻
論文審査委員 主査: 東京大学 教授 伊庭,斉志
 東京大学 教授 広瀬,啓吉
 東京大学 教授 近山,隆
 東京大学 教授 相澤,清晴
 東京大学 教授 相田,仁
 東京大学 教授 金田,康正
 東京大学 助教授 杉本,雅則
内容要旨 要旨を表示する

ロボット制御の立場から見れば,プログラムはロボットの制御に対して,最も一般的,直観的な方法であるが,手でプログラミングするのは極めて困難なことである.故に,進化的な手法が広く応用されてきた.遺伝的プログラミング(GP)は,進化型計算手法の1つ,与えられた問題を解決するため,自動的にコンピュータプログラムを探索する手法である.多くの研究はGPがロボットのプログラム設計に有効性と証明した.

しかし,これに関する研究はほとんどシミュレーションで行われた.筆者はシミュレーションで構想を検証することではなく,実機のロボットを制御して実環境の問題を解決することを注目する.GPを用いた実機ロボットを制御することは困難であり,今まで,有効な手法を報告されていない.

GPを使って実機のロボットの制御プログラムを生成する時に,膨大な数の個体を実機で評価しなければならない,この過程には通常膨大な時間を要する.この問題を回避するため,シミュレーションで進化させ,最終的に得られた個体を実機に移植するアプローチは直観的な考えである.しかしながら,シミュレーションから獲得した結果は実機での有効性に異論があり,普通,シミュレーション上で進化させた個体を実環境に実装しても,適切に行動することが難しい,すなわち,シミュレーションと実環境の間にgap(reality gap)がある.

そのgapを克服する努力とし,多くの研究者らは実機を用いて直接進化を行なわせ,有望な結果を報告した.これらの研究はほとんどニューラル・ネットワークに基づく手法であるが,少数の研究者はGPを使い,実機で制御プログラムを進化させた.代表的な研究として,Banzhafらは線型GP(linear-GP)を用いて,実機でロボットの制御プログラムを進化する実験を報告した.彼らはKheperaロボットを使い,障害回避と目標追随の行動を進化させ,良好な結果を得た.これらの結果はGPを用いて実機で直接進化の可能性を示した.しかしながら,上記の研究は簡単なロボットを用いて簡単なタスクを達成できたが,複雑システムに対する拡張性は未解決の問題である.

本論文はこれに対して,階層的遺伝的プログラミングを提案し,実機ロボットを進化させる.

Brooks が提唱しているサブサンプションアーキテクチャ(Subsumption Architecture,SSA)は目標タスクを達成するために,ロボットの行動をセンシングとアクションを持った基本的な動作(primitive behaviors)に分割し,低レベルから高レベルに至る各々の基本的な動作が確実に実世界で動くようにする,その上で,高レベル低レベルを包摂する手法である.

サブサンプションアーキテクチャ手法の最大の利点は実環境に頑健な行動ができる.しかし,基本的な動作は手で試行錯誤によってデザインされ,複雑なタスクに対し,制御システムの設計は大変難しい問題である.それに対して,筆者は進化的なサブサンプションアーキテクチャ(Evolutionary Subsumption Architecture,ESSA)を提案する(図 1 進化的なサブサンプションアーキテクチャ).

この手法はサブサンプションアーキテクチャによって,制御システムを複数のレベルに分け,GP を用いて低レベルから高レベル順,自動的に生成する.GPはサブサンプションアーキテクチャの基本的な動作を生成することによって,デザインの重荷を軽減し,一方,サブサンプションアーキテクチャは制御システムを分けることによって,GPの探索空間が大幅に削減した.

この方法は「手−目協調」という二台ロボットの協調動作問題に検証された.「手−目協調」問題は,二つの移動ロボット,カメラを装備されたロボットは「目」とし,グリッパーを装備されたのは「手」として行動する.目標タスクは「目」が「手」を指揮し,物体を指定したところに搬送することである.

実験はまずシミュレーションで行い,進化させた個体を実機ロボットに実装する.サブサンプションアーキテクチャ手法によって,獲得した結果は十分に頑健であるため,シミュレーションと実環境のgap を克服し,実環境に高い確率で目標タスクを完成することができる.

ヒューマノイドロボットは高自由度の複雑システムであり,移動ロボットより制御が困難である.ヒューマノイドロボットの複雑さを考えると実機を用いて直接進化を行なわせるのは極めて困難,或いは事実上不可能である.

一方,シミュレーションで進化させる方法では,ヒューマノイドロボットのシミュレーション自身も大変計算負荷が大きく,進化させるのも困難である.ヒューマノイドロボットの複雑性により,シミュレーションと実環境の間のgapが一層大きいため,移植することも困難である.さらに,シミュレーション環境が用意されていないヒューマノイドロボットもある.それゆえに,シミュレーションで進化させ,最終的に得られた個体を実機に移植するアプローチはヒューマノイドロボットに対しても困難,もしくは,不可能である.

それに対して,筆者はGPとCBRの統合手法を提案し,自律的な搬送タスクにおいて,提案する手法の有効性を検証する.

提案する手法はロボットの制御システムをハイレベルの行動計画レイヤー(planning layer)とローレベルの反射行動レイヤー(reactive layer)に分ける.筆者らは"抽象動作要素"(abstract behavior)という新たな概念を提案する.abstract behaviorはヒューマノイドロボットの似ている多様な要素動作を代表する抽象的なシンボルである.提案する手法はabstract behaviorに基づいて遺伝的プログラミング(Genetic Programming, GP)により高度に簡単化したシミュレーションの中に行動計画レイヤーを生成する.そうして,事例に基づく推論(Case-Based Reasoning, CBR)をオンライン適応手段として用い,実環境で,abstract behaviorを具体的なモーター指令に変換する.システムは図 2 GPとCBRの統合手法に示している.

実験の結果により,提案する手法は効率的にヒューマノイドロボットの制御システムを生成し,環境に柔軟的に適応できることを示す.さらに,本手法はヒューマノイドロボットの制御だけではなく,進化的な手法を複雑システムへ応用する,一般的なフレームワークを提案する.

GPとCBRの統合手法に事例に基づく推論をオンライン適応手段として用い,実環境で,abstract behaviorを具体的なモーター指令に変換する.しかし,事例ベースの定義は目標も達成に対して大変決定的なことである.しかし,手で行うため,困難で,実機ロボットの性能に大きい影響を与える.この問題を軽減するため,筆者はオンライン進化的な抽象動作要素を提案した(図 3 オンライン進化的な抽象動作要素).

この手法において,制御システムを高レベルと低レベルに分け,高レベルはabstract behaviorに基づいてGPにより簡単化したシミュレーションの中に生成する.低レベルは図 3オンライン進化的な抽象動作要素のした部分に示すように,オンラインGPを用いて,実環境の状況に応じてダイナミックにabstract behaviorを具体的なモーター指令に変換する.

提案する方法はナビゲーションタスクにおいて評価される.ロボットは障害物がある環境において,障害物を回避しながら,目標に接近する.

低レベルには,標準的な動作,オンラインGPシステム(online GP system),行動評価システム(Evaluator system)とコーディネーターシステム四つ部分で構成される.

オンラインGPシステムは現場の状況に基づいて,適切な行動をダイナミックに生成する.普通,実機でOnline GPを使う時に,進化過程は通常膨大な時間を要するため,実機の進化は不可能になる.提案する手法はオンラインGPシステムの評価は実環境を用いらずに,行動評価システムを採用し,進化時間はきわめて削減され,リアルタイムに進化することができる.

行動評価システムはオンラインGPシステムから出力行動の効果を評価し,適応度を計算し,オンラインGPシステムへフィードバックする.

コーディネーターシステムは標準的な動作とオンラインGPシステムの出力を結合するメカニズムである.

実験の結果によって,提案する手法は実機で低レベル動作を生成し,反射行動を行っていながら.高レベル制御プログラムの計画的な動作を達成する.

本論文は実機ロボットに対して,階層的遺伝的プログラミング手法を提案し,三つのタスクにおいて検証した.複雑なロボットシステムに対して,制御プログラムを効率的に生成できる.実験結果を通して,提案手法の有効性を示した.

図 1 進化的なサブサンプションアーキテクチャ

図 2 GPとCBRの統合手法

図 3 オンライン進化的な抽象動作要素

審査要旨 要旨を表示する

 本論文は遺伝的プログラミング(GP)を用いた実機ロボットの柔軟な制御手法を提案するものである.複雑なロボットシステムや複雑なタスクに対して,GPを用いた階層的な進化型制御手法を提案し,シミュレーションと実機両方でその有効性を検証している.

 本論文は6章より構成されている.第1章は序論,第2章は背景と関連研究,第3章は進化的な包摂アーキテクチャ,第4章は事例に基づく推論と遺伝的プログラミングの統合,第5章はオンライン型進化手法,第6章は考察と結論である.

 第1章は序論であり,従来の研究の問題点と本論文の主張が簡潔にまとめられている.

 第2章においては本論文の背景知識と関連研究について述べる.遺伝的プログラミングと進化ロボティクスの基本概念を紹介し,GPによる進化ロボティクスに関する古典的研究を解説している.

 第3章では,階層的なフレームワークの1つの例として進化的な包摂アーキテクチャ手法(Evolutionary Subsumption Architecture)を提案し,マルチロボットシステムに対して提案手法を応用している.この手法はBrooksが提唱した包摂アーキテクチャの学習にGPを適用するものである.包摂アーキテクチャの制御システムを複数の階層に分け,GPを用いてそれぞれの階層を自動的に生成する.シミュレーションと実環境の双方において,二台の異種移動ロボットによる協調行動(「手−目協調」問題)に対して生成された制御プログラムを検証し,進化的な包摂アーキテクチャ手法の有効性を示している.

 第4章においては,前章で提案した階層的な手法(進化的な包摂アーキテクチャ手法)をさらに拡張して,事例に基づく推論(CBR: Case-based Reasoning)と遺伝的プログラミングの統合手法を提案している.このフレームワークでは,ロボットの行動を簡単化したシミュレーション中で,動作要素をシンボルとしたabstract behaviorを用いたGPの学習を行う.つぎに実環境において事例に基づく推論(CBR)をオンライン適応手段として用いる.これにより,実際の状況に従ってabstract behaviorを具体的なモーター指令に変換する.このアプローチの有効性を,ヒューマノイドロボットによる自律的な搬送タスクを用いて検証した.実験の結果,提案手法はヒューマノイドロボットの制御システムを効率的に生成し,実機ロボットを環境に柔軟に適応させ,タスクを効果的に完遂させることが示された.

 第5章においては,第4章の手法をさらに改良して,オンライン型進化手法を提案している.この手法では制御システムを高レベルレイヤと低レベルレイヤに分ける.そして,第4章と同じく高レベルレイヤは簡単化したシミュレーションでabstract behaviorsをもとにGPにより生成する.低レベルレイヤでは,オンライン型のGPを用いてリアルタイムにabstract behaviorsを実環境の状況に応じて具体的なモーター指令に変換する.提案する手法をヒューマノイドロボットのナビゲーションタスクに応用し,その有効性を示している.

 第6章では本論文の考察と結論が述べられ,さらに今後の課題と展望について議論している.

 以上これを要するに本論文は,ロボット制御のプログラムを遺伝的プログラミング(GP)によって自動生成する手法を提案し,シミュレーションと実機によりその有効性を示したものであり,人工知能,とくに進化型ロボティクスに貢献するところ少なくない.

 したがって,博士(科学)の学位を授与できると認める.

UTokyo Repositoryリンク