学位論文要旨



No 126135
著者(漢字) 柳瀬,利彦
著者(英字)
著者(カナ) ヤナセ,トシヒコ
標題(和) 進化計算による自律ロボットのための行為獲得に関する研究
標題(洋) Adaptive Behavior Acquisition for Autonomous Robots by means of Evolutionary Computation
報告番号 126135
報告番号 甲26135
学位授与日 2010.03.24
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第552号
研究科 新領域創成科学研究科
専攻 基盤情報学専攻
論文審査委員 主査: 東京大学 教授 伊庭,斉志
 東京大学 教授 石塚,満
 東京大学 教授 近山,隆
 東京大学 准教授 杉本,雅則
 東京大学 准教授 峯松,信明
 東京大学 准教授 佐藤,周行
内容要旨 要旨を表示する

本論文では,ロボットの能動的な行為獲得に対して進化論的なアプローチからの解決法を提案する.近年,ロボットの研究の進展により,その活躍の場は研究機関や産業界から一般家庭へと広がりをみせている.現在のロボットは単一の機能を実現するために専用ハードとして実装されているものが多いが,今後は一台の自律的に活動するロボットによって様々なタスクを実行できることが望まれている.本論文では,自律ロボットについて議論し,その実現にはロボットが自己のおかれた環境を理解し人の要求を満たす行動を実現することが必要であることを示す.他者からの要求はロボットにとっては目的として理解されると考えられる.そうした目的を実現するような一連の行動を行為と呼び,行為の自動的な獲得を行うことを目標とする.行為の獲得は,これまでにも学習や最適化手法を用いて行われてきた.これらの研究は個々に設定されたタスクを実現するように行為獲得の手法が設定され,統一的な行為獲得の枠組みは見つかっていない.これは,どのような行為を対象とするかによって学習の枠組みが大きくことなるためであると考えられる.本研究では,行為獲得に対する各種のアプローチに対して分類を行い,多くの従来手法では単一目的を最大化もしくは最小化するよう定式化し,最適化手法を適用しているという共通点を確認した.本研究では,このようなアプローチでは実現の難しい行為獲得が存在することを示し,特に次の三つを困難の原因とする問題に注目した.

1.探索対象がプログラムなどの複雑なデータ構造を有する.

2.人の嗜好など,目的値を陽に表現することが難しい.

3.二つ以上の目的値が存在し,状況により優先される目的が異なる.

本研究では,三つの問題に対してそれぞれ進化計算を用いることで行為の獲得を目指す.進化計算が問題に依存する部分が少なく,大きな拡張性を有することに注目し,それぞれの問題に対して適切な進化計算の拡張を適用する.

一つ目の問題の例として,試行錯誤を通じた自動的なロボットのプログラム獲得を取り上げる.ロボットの行為に必要な環境の観察と行動の実現のマッピングはプログラムによって実現されており,これを試行錯誤によって獲得することは自動的な行為獲得にとって大きな目標である.プログラムはある文法に従った構造データであり,以前から遺伝的プログラミング(GP)による研究が行われてきた.この手法は,プログラムを木構造データによって扱うことでLispのS式と同等のプログラム表現が可能である.しかし,GPによって獲得される機能は,なぜこの手法でうまくいくのかという解析が困難であった.一方で,分布推定アルゴリズムの分野では,学習に明示的な確率モデルを用いることで,問題構造の解析が行われてきた.このような背景から,ロボットのプログラム獲得においても,分布推定アルゴリズムの考え方を導入する価値は高いと考えられる,本研究では確率モデルを用いたGPをロボットプログラミングに応用する.確率モデルGPは多くのベンチマークプログラムで優れた性能を示している.しかし,従来の手法をロボットプログラミングに応用する際には,実行時に評価されない部分構造であるイントロンが問題になる.本研究では,確率モデルGPのためのデータ構造としてBinary Encoded Probabilistic Prototype Treeを提案し,木構造変換をすることでイントロンの削減を行った.ベンチマークプログラムにより提案手法の特性を議論し,イントロンを削減することで探索性能が向上することを確認した.また,ロボットプログラミングのWall Following問題に適用し,従来手法に比べて優れた性能を示すことを確認した.

二番目の問題は,人間とのインタラクションに起因する困難である.ロボットの応用分野が家庭や公共の場で利用されるには,人間とのコミュニケーションが必要である.人間とロボットとのコミュニケーションを実現するにあたって,ロボットはユーザの好みや意図を推測するという,目的関数自体の推定が求められる.しかし,人間の目的とは必ずしも明確に定まっているものではなく,時間とともに変化する可能性のあるものである.本研究では,ロボットの動作設計を例にユーザの直接評価による問題の解決を図る.実験ではヒューマノイドロボットの多様な動作を直感的に設計することを目的とする.一般にヒューマノイドロボットは複雑な形状を持ち,多数のアクチュエータを備えている.加えて,転倒を避けて動作させるためには,重心位置など制約条件が付け加わる.このことは,ユーザにロボット工学についての知識に加えて対象とするロボットの知識を要求することになる.この問題を解決するために,対話型進化計算を用いた安定した動作の設計法を提案する.システムは設計者に動作候補を提示し,設計者は動作候補に対して,望みの動きに近いかどうかという直感的な評価を行うことで,ヒューマノイドロボットの動作設計を行う.システムは内部に,全身運動生成器を有している.これにより,システムの側から転倒しない動作を提案することができ,設計者に要求される知識を軽減させている.実験では生成された動作に対して動力学シミュレーションを行い,有効性を示した.

最後の問題は,自己のおかれている環境の変化や相手の要求の変化に起因する困難である.本論文では,多くの障害物が存在する環境でのヒューマノイドロボットの自律移動を例に目的値の優先度の動的な切り替えを行うことを提案する.この例では,歩行の計画に必要な計算コストと,ロボットのおかれたマップの複雑さの二つが目的値であり,それぞれトレードオフの関係にある.ヒューマノイドロボットにおいて,自律移動に関する各機能は独立性の高いモジュールとして実装され,関係するモジュールと通信することでタスクの解決を行っている.ロボットに様々な作業を行わせようとする際には,求められる機能が多くなり,必然的にモジュール数も増加する.モジュールを効果的に働かせるためには,関連するモジュールが要求する制約を満たすようにパラメータの調整をする必要がある.従来は単一目的の最適化が行われてきたが,状況に応じて複数の目的値を考慮することが必要な場合が存在する.本研究では進化論的な多目的最適化によるモジュールのパラメータ最適化を提案する.歩行計画のパラメータ調整に進化論的多目的最適化を応用し,パレート最適な解を得た.その後,パレート最適なパラメータを切り替えながら歩行計画を行うことで従来手法よりも計算量や総歩数を減らすことが可能であることを示した.

審査要旨 要旨を表示する

本論文は「進化計算による自律ロボットのための行為獲得に関する研究」と題し6章からなり,進化計算に基づいたヒューマノイド・ロボットの行為獲得を主題として,行為獲得における探索空間の表現と評価値の設定方法を提案し,シミュレーションと実機での実験結果に基づき提案手法の有効性を明らかにしている.

第1章は序論であり,主題と目的が述べられ,自律ロボットの実現における行為獲得の必要性について説明されている.また本論文に関連する基礎的なことがらが簡潔に説明されている.

第2章においては,自律ロボットの構成と行為獲得のための学習手法について議論される.自律ロボットの構成としてはモデルに基づく計画を重視するアーキテクチャとリアルタイム性を重視するアーキテクチャの報告がなされている.まずこれらの研究を概観し,ヒューマノイドロボットに適したアーキテクチャを考察する.また,構成したシステムを用いた行為獲得としてボールキック動作の獲得実験を行っている.実験から評価値の与え方の違いによって学習の結果得られる解の性質が異なることを明らかにしている.

第3章では,試行錯誤を通したロボットのプログラム獲得のためのデータ構造を提案している.ロボットのプログラム獲得には従来から遺伝的プログラミング(GP,GeneticProgramming)による研究が行われてきたことを説明し,伝統的なGPの性能の限界について議論する.分布推定アルゴリズムの考え方を導入した確率モデルGPについて説明し,通常のGPと異なる探索性能を示すことを考察している.確率モデルGPをロボットプログラミングに応用する場合には,実行時に評価されない部分構造(イントロン)が問題になることを示している.この問題に対し,イントロン削減のためのデータ構造としてBinaryEncodedProbabilisticPrototypeTree(BPPT)を提案する.ベンチマーク問題をもちいた実験から,イントロンを削減することで探索性能が向上することを確認している.また,BPPTをロボットプログラミングのWalFoUowing問題に適用した実験を行っている.実験結果から,確率モデルGPのロボットプログラミングにおけるイントロンの重要性と,提案する木構造変換による探索空間の削減が有効に働いていることを結論付けている.

第4章においては,ユーザとのインタラクションを伴う行為の獲得のための対話的な手法を提案している.ユーザとロボットとのコミュニケーションを実現するにあたって,ロボットはユーザの好みや意図を推測するという目的関数の推定が求められる.従来の模倣学習の枠組みでは目的の推定を行ってきたが,本研究ではユーザの好みを行為獲得に取り入れ,ユーザの直接評価を用いる対話型システムを構築している.提案システムは設計者に動作候補を提示し,ユーザは望みの動作に近いかどうかを主観的な評価を行うというものである.実験では,動作の安定性と多様性の二点に関してランダムに生成された動作を解析する.ヒューマノイドロボットの動作獲得で問題となる不安定さについて,物理的な特性の面から議論している.提案手法では動作設計にロボットの質点近似を用いていることで高い確率で安定した動作を生成することができる.生成された動作の遊脚の範囲を提示し,動作の多様性について考察する.システムによる動作の実例として,2種類の歩行動作と2種類のキック動作の作成例を示している.実験結果から,動作の安定性がユーザの試行錯誤を効率的なものにし,提示される多様な動作が発想支援となることを議論している.

第5章では,自己のおかれている環境の変化や相手の要求の変化を有する行為を獲得する手法に関して議論している.多くの障害物が存在する環境でのヒューマノイドロボットの自律移動を例にして,目的値の優先度の動的な切り替えを行うことを提案する.歩行の計画に必要な計算コストと,ロボットのおかれたマップの複雑さの二つが目的値であり,それぞれトレードオフの関係にあることを考察する.この困難を解決するため,進化論的な多目的最適化によるモジュールのパラメータ最適化を提案している.歩行計画のパラメータ調整に進化論的多目的最適化を応用し,パレート最適な解を得ている.その後,パレート最適なパラメータを切り替えながら歩行計画を行うことで従来手法よりも計算量や総歩数を減らすことが可能であることを示している.

第6章においては,本論文の結論と今後の展望が述べられ,それと平行して本論文のアプローチに関する考察が述べられている.

なお,本論文の一部は共同研究によって行われたものであるが,論文提出者が主体となって提案及び実験・分析・検証を行ったもので,論文提出者の寄与が十分であると判断する.

以上これを要するに本論文は,生物の進化をモデル化した最適・設計手法による自律ロボットの行為獲得のための表現・評価方法を提案し,多くの実験結果をもとにロボットプログラミングにおける有効性を示したものであり,情報学の発展に貢献するところ少なくない.

したがって,博士(科学)の学位を授与できると認める.

UTokyo Repositoryリンク