学位論文要旨



No 117612
著者(漢字) 川野,洋
著者(英字)
著者(カナ) カワノ,ヒロシ
標題(和) 任務環境の不確定性に対応可能な非ホロノミック自律型海中ロボットの強化学習による動作計画法
標題(洋)
報告番号 117612
報告番号 甲17612
学位授与日 2002.09.30
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5329号
研究科 工学系研究科
専攻 環境海洋工学専攻
論文審査委員 主査: 東京大学 教授 浦,環
 東京大学 教授 浅田,昭
 東京大学 教授 大和,裕幸
 東京大学 助教授 橋本,秀紀
 東京大学 助教授 鈴木,英之
 東京大学 助教授 藤井,輝夫
内容要旨 要旨を表示する

 現在、その開発が実用化の段階に入っている自律型海中ロボットは、そのほとんどが非ホロノミックなロボットであり、Under Actuated Mechanismを持つ。非ホロノミック自律型海中ロボット(NHAUV: Non-Holonomic Autonomous Underwater Vehicle)は横方向推進用の推進器を持たないため横方向への直接的な移動が出来ず、その場回頭が不可能なことが多い。そのようなNHAUVは、一般には時不変フィードバック制御の手法では位置制御を行うことが不可能であることが知られており、NHAUVが障害物の密集する環境内を安全に航行するには、NHAUVの限られた運動特性を考慮した動作計画アルゴリズムが必要である。本研究では、そのようなNHAUVの動作計画アルゴリズムについて研究する。

 NHAUVは、陸上の4輪自動車型非ホロノミックロボットなどと比べて、動力学特性が複雑であり、4輪自動車型非ホロノミックロボットの動作計画で使用されているようなA*などの決定的な経路計画手法を直接適用することが出来ない。具体的には、NHAUVが旋回動作をする際の横滑り現象や、潮流による旋回時の軌道の変形などがその理由である。そこで本研究では、強化学習の手法の一つである準マルコフ決定過程におけるQ学習(SMDP法)を応用した確率的な動作計画の手法によりこの問題を解決する。

 Q学習は、離散的な状態変数によって記述される環境において適用可能であり、環境の動特性がマルコフ決定過程に従うという仮定の元で適用可能な手法である。そのようなQ学習のサブセットの一つであるSMDP法は、NHAUVの動作計画において、航行所要時間の評価を行うのに有効である。Q学習をNHAUVに適用する上での問題点としては、一つ目には複雑なNHAUVの動力学特性に起因する非マルコフ性の問題、二つ目にはNHAUVの運動を記述する状態変数の多さに起因する状態空間の爆発の問題、三つ目にはQ学習が不安定な学習手法であり学習の収束を補償するのが難しい問題。四つ目にはQ学習によって獲得された行動アルゴリズムを学習を行ったときとは異なる環境で適用するのが難しいという問題などである。特に最後の問題については、任務行動中の想定外のアクチュエータ故障の発生や、海中環境における未知な潮流分布や不確定要素を含んだ海底地形の存在を考えると重要な問題であると言える。

 本研究では、一つ目と二つ目の問題に対して、SMDP法と最急降下法を併用した階層的学習アルゴリズムを提案する。三つ目の問題に対しては、教示の手法によって学習の効率化を図り、学習プロセスを安定化することを考える。四つ目の問題の解決法として、Baysian Networkを応用した運動モデルの導入によって、学習中にNHAUVの運動特性を蓄積し、蓄積された知識を再利用することによって、学習の時とは異なる環境に対応可能な動作計画アルゴリズムの獲得が可能であるようにする。さらに、運動モデルの導入は、学習プロセスの効率化にも役に立つ。

 本研究で提案する階層手的学習アルゴリズムは、上流と下流の2層に分かれたモジュールが直列に結合した構造をしている(図1)。上流モジュールを行動選択部と呼び、下流モジュールをアクチュエータ制御部と呼ぶことにする。行動選択部では、SMDP法によって計算されたQ値を利用した動作計画が行われ、アクチュエータ制御部では動作計画に従ってNHAUVのアクチュエータを制御する。アクチュエータ制御部の学習は最急降下法によって行われる。NHAUVの動作計画を行うためには、少なくともNHAUVの位置と方位角、方位角速度を参照しなければならないが、そのような多くの状態変数を使ってQ学習のための状態空間を構成すると状態空間の爆発を引き起こすので、本研究ではこれらの状態変数を上流と下流のモジュールに振り分けることによって状態空間の爆発を回避する。すなわち、上流の行動選択部では、NHAUVの位置と方位角、下流のアクチュエータ制御部では方位角と方位角速度を参照する。行動選択部が方位角速度を参照しないことによって起因する非マルコフ性の悪影響をアクチュエータ制御部で補償する。学習中のNHAUVの行動による全ての状態遷移は、運動モデルに蓄積される。行動選択部の学習は、運動モデルのデータを用いて行われる。そのため、一度運動モデルが適切に獲得されれば、それを利用して学習のときとは異なるさまざまな条件に適用可能な動作計画アルゴリズムを導出可能である。例えば、アクチュエータ故障時のための動作計画アルゴリズムや、異なる配置の障害物が存在する海域における動作計画アルゴリズムなどが運動モデルによって導出可能である。

 本研究では、2種類の教示の手法を導入する。一つ目は詳細教示と呼ぶもので、学習中のNHAUVの行動選択の仕方を教示者の手で直接制御する方法である。詳細教示を受けたNHAUVは、教示を受けた通りに行動し、その行動結果を運動モデルに蓄積していく。教示者によって与えられた経験は、運動モデルを使ったSMDP法による学習の際に評価され、教示されたのが良い行動の場合は高い報酬が与えられるが、悪い行動であれば低い報酬が与えられる。そのため、詳細教示の手法においては、教示者のミスを含んだ教示内容によってNHAUVが間違った行動を学習することを防止できる。二つ目は包括教示と呼ぶもので、学習中のNHAUVが危険な状況に陥るのを常に防止する機能を持つBehavior Basedアルゴリズムのハードコーディングによって行われる。NHAUVは、未経験の状態にあるときや、任務空間の外部に位置する時には、包括教示によって与えられたBehavior Basedアルゴリズムによって行動選択を行う。この手法により、例えば潮流中で学習を行うNHAUVが任務環境を遠く離れた場所まで潮流によって流されてしまうのを防止することができ、学習プロセスを安全に続行させることが出来る。

 本研究では、未知の潮流分布に対応するために、異なる一様流中条件での航行を想定した複数の動作計画アルゴリズムを、運動モデルを利用した学習で導出し、それらを併用する手法を採用する。実際の航行においては、NHAUVの位置における潮流条件に合った動作計画アルゴリズムを随時選択して航行制御に使用することとする。また、その形状に不確定要素を含む海底地形に対応するために、Behavior Basedアルゴリズムによる縦方向の高度制御アルゴリズムと、本研究で獲得された2次元平面内航行用の動作計画アルゴリズムを併用する手法をとる。すなわち運動モデルを用いた動作計画アルゴリズムの導出の際に、NHAUVの上下動の運動性能の限界を考慮することによって、NHAUVの運動性能では回避不可能な険しい斜面を避けつつも目的地までNHAUVを誘導可能な動作計画アルゴリズムを導出する。

 本研究で提案するアルゴリズムはシミュレーションによってされる。想定するNHAUVモデルとして、東京大学生産技術研究所によって建造されたR-One Robotを想定する(図2)。図3に、本研究で提案する学習アルゴリズムによって獲得された運動制御アルゴリズムによる垂直推進器故障時のNHAUVの潮流中での垂直上昇動作を示す。NHAUVは垂直推進器の代わりに昇降舵を利用して垂直上昇を行っている。この動作は、教示者によって与えられたものではなく、NHAUVが学習中の経験から自動的に導き出したものである。図4に本研究で提案する学習アルゴリズムによって獲得された動作計画アルゴリズムによって、NHAUVが水平面内の2次元円柱近傍を航行する様子を示す。円柱周りの潮流分布はNHAUVにとっては未知なものであり、このような未知な潮流分布中でもNHAUVの運動性能を考慮した動作計画によって適切に航行制御が行われているのがわかる。図5に、誤差を含む海底地形モデルを利用して導出された、定高度航行用の動作計画アルゴリズムによるNHAUVの航行の様子を示す。NHAUVは定高度航行により、NHAUVの運動性能では回避不可能な険しい山を回避しつつ目標地点への到達に成功しているのがわかる。

 以上のシミュレーションの結果より、本研究で提案する学習アルゴリズムによって、さまざまな不確定要素を含む海中環境にて適用可能な動作計画アルゴリズムをNHAUVに獲得させることが可能であることが示された。

図1階層的学習アルゴリズムの全体構成

図2本研究で非ホロノミックAUVモデルとして想定するR-One Robot

図3獲得された制御アルゴリズムによるアクチュエータ故障時の垂直上昇動作(垂直推進器が故障しており、代わりに昇降舵が使用されている)

図4非均一未知潮流分布中における非ホロノミックAUVの動作軌跡

図5定高度航行を想定した動作計画アルゴリズムによるNHAUVの動作の様子

審査要旨 要旨を表示する

 海洋環境の観測などの水中活動を目指した自律型海中ロボット(AUV: Autonomous Underwater Vehicle)は、現在実用段階に入っている。開発されるロポツトは、その主たるミッションによって様々な形態を持つ。最も単純なミッションは、海洋の中層を長距離航行して、海水あるいは海底の観測をおこなうことであり、その為のロボットは航行型AUVと呼ばれる。前進運動を専らとする推進機構のために、ロボットは横方向推進用の推進器を持たない非ホロノミックなロボットとなる。非ホロノミックなロボットの動作計画やそれに沿った運動制御は制約条件が多く、困難な問題である。特に、予め知られていない流れがある海中環境条件の不確定性を含むような場合には困難さが際だつ。本論では、この非ホロノミック自律型海中ロボット(NHAUV: Non-Holonomic Autonomous Underwater Vehicle)の動作計画あるいは運動制御を扱うことのできる学習手法を提案し、その有効性を示すことを目的としている。

 第一章では、AUVの研究開発の現状を述べ、NHAUVの位置づけをおこなっている。

 第二章では、NHAUVの動力学特性、強化学習、Q学習などを概観し、強化学習の手法の一つである準マルコフ決定過程におけるQ学習(SMDP法)を応用した確率的な動作計画の手法を導入している。

 第三章では、NHAUVの動作計画あるいは運動制御にQ学習を適用ことの問題点と解決すべき課題について述べている。NHAUVの複雑な動力学特性に起因する非マルコフ性の問題、運動を記述する状態変数の多さに起因する状態空間の爆発の問題、Q学習が不安定な学習手法でありことによる学習の収束を補償するのが難しい問題、およびQ学習によって獲得された行動アルゴリズムを学習を行ったときとは異なる環境で適用するのが難しいという問題を挙げている。特に、最後のものは任務行動中の想定外のアクチュエータ故障の発生や、海中環境における未知な潮流分布や不確定要素を含んだ海底地形の存在を考えると特に重要な問題であると言える。それら課題に対応する各種手法を導入している。

 第四章では、本論の中心となる章で、第三章で提示した問題点をNHAUVの代表であるアールワン・ロボットをターゲットにしてQ学習により解決する手法について提案している。そこでは、非マルコフ性への対策、包摂構造を利用した学習の効率化、教示方法の構造、Baysian Networkを利用した運動モデルとその学習法、評価手法、環境の不確定性への対応手法を提案している。具体的には、SMDP法と最急降下法を併用した階層的学習アルゴリズムの提案、教示の手法によって学習の効率化を図った学習プロセスの安定化、Baysian Networkを応用した運動モデルの導入によって学習中にNHAUVの運動特性を蓄積しその知識を再利用することの提案などである。これらによって、学習の時とは異なる環境に対応可能な動作計画アルゴリズムの獲得でき、学習プロセスの効率化にも役に立つことを示した。

 提案された階層手的学習アルゴリズムは、多くの状態変数を使ってQ学習のための状態空間を構成すると状態空間の爆発を引き起こすので、状態変数を上流(行動選択部)と下流(アクチュエータ制御部)のモジュールに振り分けることによってこれを回避している。行動選択部では、SMDP法によって計算されたQ値を利用した動作計画が行われ、アクチュエータ制御部では動作計画に従ってNHAUVのアクチュエータを制御する。アクチュエータ制御部の学習は最急降下法によって行われる。行動選択部では、NHAUVの位置と方位角、アクチュエータ制御部では方位角と方位角速度を参照するシステムにしている。行動選択部が方位角速度を参照しないので、非マルコフ性の悪影響をアクチュエータ制御部で補償させている。学習中のNHAUVの行動による全ての状態遷移は、運動モデルに蓄積される。行動選択部の学習は、運動モデルのデータを用いて行われ、一度運動モデルが適切に獲得されれば、それを利用して学習のときとは異なるさまざまな条件に適用可能な動作計画アルゴリズムを導出可能にしている。

 本論では、2種類の教示の手法を導入している。詳細教示と呼ばれる学習中のNHAUVの行動選択の仕方を教示者の手で直接制御する方法と、包括教示と呼ばれる学習中のNHAUVが危険な状況に陥るのを常に防止する機能を持つBehavior Basedアルゴリズムのハードコーディングによって行われるものとである。NHAUVは、未経験の状態にあるときや、任務空間の外部に位置する時には、包括教示によって与えられたBehavior Basedアルゴリズムによって行動選択を行う。この手法により、潮流中で学習を行うNHAUVが任務環境を遠く離れた場所まで潮流によって流されてしまうのを防止することができ、学習プロセスを安全に続行させることが出来る。

 本論では、未知の潮流分布に対応するために、異なる一様流中条件での航行を想定した複数の動作計画アルゴリズムを運動モデルを利用した学習で導出し、それらを併用する手法を採用している。実際の航行においては、NHAUVの位置における潮流条件に合った動作計画アルゴリズムを随時選択して航行制御に使用する。また、その形状に不確定要素を含む海底地形に対応するために、Behavior Basedアルゴリズムによる縦方向の高度制御アルゴリズムと、本研究で獲得された2次元平面内航行用の動作計画アルゴリズムを併用する手法をとっている。これにより、運動モデルを用いた動作計画アルゴリズムの導出の際に、NHAUVの上下動の運動性能の限界を考慮することによって、NHAUVの運動性能では回避不可能な険しい斜面を避けつつも目的地までNHAUVを誘導可能な動作計画アルゴリズムを導出することが可能となる。

 第五章では、提案した学習アルゴリズムをシミュレータにて各種の環境条件下で実行し、その総合的な評価をおこなって、第三章で示した問題点がいかに克服されているかを示した。すなわち、本研究で提案する学習アルゴリズムによって、さまざまな不確定要素を含む海中環境にて適用可能な動作計画アルゴリズムをNHAUVに獲得させることが可能であることを示した。

 第六章では、提案する手法の特徴について議論し、NHAUVの動作計画あるいは運動制御にQ学習を利用することの利点とともに限界をシミュレーション結果から考察している。

 第七章では全体をまとめ、提案する手法がNHAUVの学習手法として有効であることを結論づけている。

 以上のように、本論文は、非ホロノミック自律型海中ロボットの運動と環境を考察し、学習により動作計画あるいは運動制御を獲得する手法を提案し、それが不確定要素を含む海中環境にて適用可能であることを示し、非ホロノミック自律型海中ロボットの自律性を高めることにより、海中ロボット工学の分野に新しい知見をもたらすとともに発展させた。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク