学位論文要旨



No 116056
著者(漢字)
著者(英字) SAYYAADI, HASSAN
著者(カナ) サイヤディ,ハサン
標題(和) 自立型海中ロボットの運動特性の同定及び航行制御のためのニューラルネットワーク
標題(洋) Artificial Neural Network,Theory and Application to Dynamics Modeling and Advanced Control of Autonomous Underwater Vehicles
報告番号 116056
報告番号 甲16056
学位授与日 2001.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4893号
研究科 工学系研究科
専攻 船舶海洋工学専攻
論文審査委員 主査: 東京大学 教授 浦,環
 東京大学 教授 前田,久明
 東京大学 教授 大和,裕幸
 東京大学 助教授 鈴木,英之
 東京大学 助教授 藤井,輝夫
内容要旨 要旨を表示する

 本研究の目的は,自律型海中ロボットの動力学モデリングと,航行制御戦略の手法を提案することにある。各々の詳細な説明の前に強調すべきことは,本論文でとられている手法が,従来の運動モデルの同定や航行制御アルゴリズムの構築で使用されている方法とは異なる人工ニューラルネットワークによるものだということである。本論文では,提案するモデリングと制御計画を自律型海中ロボットへ適用する。

 自律型海中ロボットの航行制御において,時間変化のある多入力多出力非線型システムの動力学モデリングと正確なシステム同定は不可欠な要素である。剛体の運動方程式を導き,運動特性を評価する手法としては,ニュートンラグランジュ力学による手法を適用することが多い。航行制御への適用を想定した場合,ニュートンラグランジュの手法によって運動方程式を導くためには,正確な運動方程式の形を記述することに加え,プラントに与えられるすべての外力とモーメントの項を可能な限り明らかにする必要がある。海中ロボットのためにニュートン力学に基づく運動方程式がいくつか提案されているが,海水の流体力学的付加質量などの影響を同定することの難しさや,自律型海中ロボットのアクチュエータが持つ非線型特性などによって容易には適用することができない。

 本論文では,そのような運動モデルの同定手法として,ニュートンラグランジュの手法に代わって,ニューラルネットワークによる汎用的な同定手法を提案し,これをCoupled Model Neural Network Identifier(CMNNI)と呼ぶことにする。入力は,状態変化速度,力,モーメントであり,出力は状態変数とする。同定用のニューラルネットワークは巨大で複雑な物となり,これを一度に学習させるのは難しい。これを解決するために,6自由度の運動モデルを表現するCMNNIを6つの部分(Single Degree of Freedom Neural network Identifiers:SDFNNI)に分ける事にする。

 SDFNNIは3層のニューラルネットワークからなり,入力層は2つの入力用ニューロンと,6つの中間層からの回帰結合用ニューロンからなる。中間層は,6つのニューロンからなる。出力層は1つのニューロンからなり,その出力は2回積分される。各々のSDFNNIの学習は,評価関数の値が適当なレベルに収束するまで行われる。学習の済んだ6つのSDFNNIを,追加シナプスにより結合することによって6自由度の運動モデルであるCMNNIを構成する。CMNNIにおいて提案されるネットワークの構造は,どのような6自由度の剛体モデルにも適用可能である。

 誤差伝播バックプロパゲーションによる教師付き学習の手法を,SDFNNIとCMNNIの両方の学習に適用した。教師付き学習では,教示信号としての入出力データセットを用意する必要があり,そのデータの収集のために,4自由度の運動自由度を持つ自律型海中ロボットのツインバーガー2号を使用した。実験により各自由度の個々の運動特性と,各方向のカップリング特性のデータ収集をおこなった。運動データは,ツインバーガー2号に搭載のドップラ式流速計によって計測した。シミュレーションによる教師付き学習の結果が本論文において説明されている。

 本研究において,自律型海中ロボットにおける航行制御の問題は,位置制御と経路計画の2つの観点から考えられている。はじめに,ニューラルネットワークを用いた正確なポジショニングについて説明し,その後で衝突回避と経路計画について述べる。位置制御モジュールは,海中ロボットを希望の位置に保持するための低レベルの制御モジュールとして扱う。経路計画モジュールは,障害物を回避するための経路を生成し,その結果を下位の位置制御モジュールに出力する。

 自律型海中ロボットの位置制御は,海水の流体力学的な付加質量により,機体の力学特性が非線型なことから困難である。自律型海中ロボットのような多入力多出力の非線型なシステムを対象に,従来の制御理論による手法で制御パラメータやゲインを調整するのはほぼ不可能と思われる。自律型海中ロボットの航行制御に適用される制御システムには十分な適応性と,柔軟性が求められる。

 本論文では,そのような位置制御の手法として,従来の制御理論による手法に変わるものとしてニューラルネットワークによる手法を提案し,Coupled Model Neural Network Controller(CMNNC)と呼ぶことにする。入力は,目標速度からの誤差,目標位置からの誤差,1ステップ前の制御信号であり,出力は制御信号である。CMNNCのニューラルネットワークは巨大で複雑な物となり,これを一度に学習させるのは難しい。これを解決するために,6自由度の運動モデルを表現するCMNNCを6つの部分(Single Degree of Freedom Neural network:SDFNNC)に分ける事にする。

 SDFNNCは3層のニューラルネットワークからなり,入力層は2つの入力用ニューロンと,1つの出力層からの回帰結合用ニューロンからなる。中間層は,6つのニューロンからなる。出力層は1つのニューロンからなる。各々のSDFNNIの学習は,評価関数の値が適当なレベルに収束するまでおこなわれる。学習の済んだ6つのSDFNNIを,追加シナプスにより結合することによって6自由度の制御もジュールであるCMNNCを構成する。CMNNCにおいて提案されるネットワークの構造は,どのような多入力多出力制御システムにも適用可能である。

 適応機能をニューラルネットワークで実現するにあたり,計算機の処理能力の問題から,制御用ネットワークの学習を,はじめはオフラインでおこなう。教師付きと教師なし学習の手法をSDFNNCの学習に適用し,教師なし学習でCMNNCを学習させる。誤差伝播バックプロパゲーション法によって,シナプスの重み値を更新し,評価関数の値を適当な値に収束させる。

 どのニューラルネットワークも,シナプスの重み値を更新するために,教示信号としてのデータセットを必要とするが,各SDFNNCの学習の初期段階においては,別途用意された未熟なコントローラにより教示データを作成し,それによる教師付き学習をおこなった。

 SDFNNCをより良いコントローラにチューニングするために教師なし学習をおこなった。CMNNCの学習用の未熟なコントローラの作成はほとんど不可能であるため,チューニング済みの各自由度のSDFNNCで代用し,それにより教師付き学習をおこなった後,教師なし学習でCMNNCのチューニングをおこなった。学習は,前述のツインバーガー2号の運動モデルと学習済みのSDFNNMとCMNNIによるシミュレーションによりオフラインでおこない結果を図示した。

 衝突回避のための経路計画は本論文で考えるもうひとつの制御体系である。自律型海中ロボットのための障害物回避は非常に重要な要素であり,ミッションの途中でロボットが危険な環境物との衝突により障害を受けるのを防ぐために考慮されなければならないものである。自律型海中ロボットの運動計画は経路計画とトラジェクトリ計画に分解できる。経路計画衝突回避(モジュール)は,ある何らかの評価基準に関して最適化しながら,衝突の無い軌道を生成する。トラジェクトリ計画は自律型海中ロボットの運動を,計画された軌道に追従するように予定する。本論文では,前者の経路計画に焦点を絞る。

 本論文で提案する自律型海中ロボットの経路計画衝突回避モジュールはニューラルネットワークによる航行制御の一例である。学習方法は強化学習に基づいており,連続した出力を生成する確率的な実数の関数を用いている。強化学習の基礎に基づいて,自律型海中ロボットが行動する環境から良い評価生み出す制御行動は報酬を受け,良い評価を生み出せない行動はペナルティを受ける。ここでは,所望する制御タスクに対して,確率的な強化学習を用いた経路計画衝突回避モジュールを適用した。システムは2つの部分からなる。ひとつは,入力に対して連続した値の出力を生成する学習ユニットで,もうひとつは,強化値を予測する役割の予測ユニットである。両方が同時に学習をおこなう。

 ここで提案した確立的な強化学習手法は,自律型海中ロボット(例としてツインバーガー2号)の衝突回避行動のための平面経路計画に使われる。Fig.1に示すように,このコントローラ・ネットワークはCoupled Model Neural Network Controller(CMNNC)とCoupled Model Neural Network Identifier(CMNNI)とにシリアルに結合されており,障害物回避のポジショニングのための目標値を生成する。適用した経路計画衝突回避の強化学習手法はただ1つのユニットを持ち,ロボットの平面運動に関する3つの異なる状態変数のうち,このモジュールにより1つのみが評価される。予測ユニットは,それぞれ6つのニューロンを持つ2つの隠された層を持つ。予測ユニットには平面運動における地球座標系の状態変数3つが入力される。学習ユニットもそれぞれ6つのニューロンを持つ2つの隠された層を持っている。学習ユニットには地球座標系における直交座標の2つの値が入力される。この2つの入力は学習ユニットが出力を生成するのに十分である。

 地球座標系のロボット行動空間は平面であり,3つのパラメータで表現される。行動空間は出発点から終点の方向にあらかじめ決められたある間隔で区切られ,強化学習モジュールはその直交方向の座標値を出力する。ロボットの回転運動は以上2つの値から計算される。経路計画衝突回避モジュールは現在ある位置から次の位置へのそれぞれの行程に,直交方向の適切な値を生成することが期待され,それゆえミッション全体を通した評価値は最小になる。

 評価関数は評価値を出力し強化学習アルゴリズムの最適化プロセスに使われる。この関数は2つの異なる部分から構成される。ひとつは回避行動の部分であり,もうひとつはロボットを目標地点に向けつづける部分である。回避行動部への入力はロボットから障害物への距離であり,目標点到達部への入力は横方向の位置である。評価関数は所望の行動を満足するように,これら2つに重みをかけた和で構成される。これら2つの適切な互譲が経路計画のアルゴリズムに障害物回避と目標点到達の両方を合理的に満足させる経路を生成させることができる。

 本論文で提案するニューラルネットワークシステム以外のシステムと同様に,学習プロセスはシナプスの重みの初期化に関するある知識を必要とする。ある経路を経路計画モジュールのニューラルネットワークに初期経路として与えた。この経路が評価基準を満足するものではないことは明らかであるが,予測ユニットと学習ユニットのシナプスの重みをある初期値に調整するためだけにこれを用いる。学習の次の段階は最適化であり,確率的な強化学習手法により実現される。初期化された経路計画モジュールは評価値を用いて衝突回避をしながらの目標点到達のために最適化される。提案した確率的な強化学習手法を用いた経路計画衝突回避に関しては2つの事例研究をおこない,結果を図示した。

 全体の結論として,本論文ではシステム同定と制御体系に,従来のモデリングや制御体系とは異なるアプローチを提案した。本論文において提案するモデリングと制御体系を自律型海中ロボットに適用した。

 ニューラルネットワークによる自律型海中ロボットの運動モデリングを考えるとき,海中環境に由来する外力やモーメントを考慮する必要はない。これらのいくつかは非常に非線形であり測定することも容易ではない。加えて,自律型海中ロボットのスラスタは容易にモデル化できない非線形性能を持っている。変数間の入出力関係を表現するデータを取得するための実験をすることが,モデルを構築するのには十分である。ニューラルネットワークは入出力のマッピングを模倣するために,これらのデータセットを用いる。

 同様に,ニューラルネットワークによる自律型海中ロボットの位置制御を考えるとき,コントローラのゲインを生成したり分析したりするのに古典制御の手法をとる必要はない。これらの手法を用いてコントローラを設計したり生成したり,コントローラの変数やゲインを調整するのは,このような非線形システムを扱う場合,とりわけ自律型海中ロボットのような多入力多出力システムの場合はほとんど不可能と思われる。ここではニューラルネットワークをこのような問題を扱うために用いた。学習を開始するために必要な初期状態のデータセットを生成するための非常に粗雑なコントローラが,学習手順の一番初めだけに必要である。その後は,いかなる追加データセットなしにコントローラは自動的に最適化される。

 提案する運動モデリングや位置制御の手法は,自律型海中ロボットだけには限らないということをここに主張しておく。他の工学の分野における今日の制御プラントのほとんどは多入力多出力の類のものであり,これらのシステム同定や制御体系は提案する手法により達成され得る。

 自律型海中ロボットの衝突回避のための経路計画に関しては,自律型海中ロボット(ツインバーガー2号)の平面運動だけではあるが,提案した手法を適用した。本手法はこのロボットに限定するものではないと結論付けることができる。他のロボットシステムにも同様に適用が可能である。提案した最適化手法はニューラルネットワークを学習要素として用いた強化学習によるものである。このニューラルネットワークによる最適化手法もまた,他の制御タスクに適用することができる。制御問題に応じて,評価関数と本アルゴリズムで扱った環境の適当な変更が必要となる。

Fig.1 Collision Avoidance module for AUV,Twin Burger2,based on the Stochastic Reinforcement Learning method.

審査要旨 要旨を表示する

 自律型海中ロボットは、近年、海中観測の新しいプラットフォームとして注目を浴びている。しかし、海中の厳しい環境は、ロボットが人間の思うように自由に動かすことを阻んでいる。これを可能にするには、ハードウェアおよびソフトウェアの両面からの研究が必要である。本論文では、ニューラルネットワークの柔軟性に着目して、最下層レベルの制御、中層レベルの運動軌跡の制御、および上層レベルの航路の決定、の3つの制御の層の全般においてニューラルネットワークで構成し、学習のみからなる総合的なソフトウェア系を確立しようとするものである。

 第1章では、自律型海中ロボットの制御について広く概観し、その問題点を摘出している。

 第2章では、ニューラルネットワークの基本機能について述べ、それを自律型ロボットのソフトウェアの根幹として構築するための学習法についての検討をおこなっている。システム同定の為には従来型のError-Back Propagation法による学習、制御系の為には適応的な学習、また、航路の決定については強化型の学習を提案している。

 第3章では、ロボットのシステム同定について扱っており、従来困難だった複数入力複数出力のロボットダイナミクスを、ニューラルネットワークで表現することに成功している。一自由度の運動の同定を第一歩として、複数入力複数出力の同定へと段階的に展開する手法を提案した。各運動成分の間に強い相互影響がある場合についても、明快なアルゴリズムにより学習が進むことが示された。これを自律型海中ロボットのテストベッドロボット「ツインバーガー2号」の4自由度の運動に適用して良好な結果を得ている。ネットワークは、Recurrent Connectionを持ち、これによって時系列データの取り扱いを容易にしているところに特徴がある。

 第4章では、第3章で導いたダイナミクスを利用して、ニューラルネットワークで制御系を構成し、複数入力複数出力の制御系を構築し、精度のよい運動制御を可能としている。さらに、ニューラルネットワークで構成されている同定モデルを利用して適応的な制御を可能にしている。このシステムも、同じテストベッドロボットを用いて実験的に成果を示していて、これまで困難だったSway-Yawの運動のCouplingを容易に扱うことができることを示した。

 第5章では、障害物がある場合に、それを避けて目的地点に到達する航路を決定するアルゴリズムの構築をおこなっている。上記2つの章では、教示型の学習方法と適応的な学習方法が採られているが、ここでは、強化学習法が提案されている。ニューラルネットワークのシナプス荷重を強化学習により調整することに成功している。すなわち、第3章および第4章で構築されたダイナミクスモデルと制御系を使って、障害物への異常接近と目標地点からの乖離の2つの評価値を用いて、航路計画の最適化を図っている。その結果、平面問題において、予め障害物があることがわかっている海域にロボットを展開したときに、その航路計画を自動的に作り上げるアルゴリズムができあがった。これはGenetic Algorithmで低自由度の場合に試みられていた例があるが、本格的な航路決定に使える実用的な方法を初めて示したといってよい。

 以上のようにして、自律型海中ロボットのような移動体に対して、システム同定系、制御系、および航路決定系の3つの系を全てニューラルネットワークで構築し、学習によりその重みを決定する手法を確立し、テストベッドロボットに適用することによって、その有用性を示した。自律型海中ロボットのソフトウェアを全てにわたってニューラルネットワークで構築した例はなく、また、この構造を利用してロボットの自律機能を高める方法論の一つが確立したといってよい。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク