学位論文要旨



No 213281
著者(漢字) 柴田,克成
著者(英字)
著者(カナ) シバタ,カツナリ
標題(和) ニューラルネットを用いた自律学習システムの研究
標題(洋)
報告番号 213281
報告番号 乙13281
学位授与日 1997.03.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13281号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 岡部,洋一
 東京大学 教授 吉澤,修治
 東京大学 教授 井上,博允
 東京大学 助教授 合原,一幸
 東京大学 助教授 横山,明彦
 東京大学 助教授 廣瀬,明
内容要旨 1.はじめに

 現在、知能システムが広く普及している中で、柔軟性、適応性の充実が強く求められている。これを実現するためには、従来中心であった知識付与型知能システムから、我々生物のように、システムが自ら学習し、知識を獲得していく自律学習型知能システムへの飛躍が必要である。このようなシステムでは、自らの経験から学習する能力と学習した知識を類似した状況に適用する汎化能力が必要である。本論文は、学習・汎化能力の高いニューラルネットを利用した自律学習システムの構築に必要と考えられる学習に関する研究成果を述べたものである。この中で、筆者は(1)相関情報抽出学習、(2)時間軸スムージング学習、(3)値域拡大学習の3つの学習則を提案し、(a)センサ信号の統合の学習、 (b)センサの動作の学習、 (c)目的達成動作の学習に適用した。

2.相関情報抽出学習と空間情報の抽出

 相関情報抽出学習は、複数の情報源からの信号の中で共通する情報(これを相関情報と呼ぶ)がシステムにとって重要な情報であるという考えの下で、これを学習によって獲得する方法である。図1のように、複数の階層型ニューラルネットを用意し、そこにそれぞれの情報源からの信号を入力する。そして、それぞれのニューラルネットの出力を互いに他のニューラルネットの出力と等しくなるように、つまり、他のニューラルネットの出力を教師信号として学習させる。この時、ニューラルネットの出力の値域を確保するため、値域拡大学習を適用する。具体的には、相関情報抽出学習をしながら、何回かに一回、そこまでの最大値、最小値の際の入力パターンに対し、それぞれ理想とする値域の最大値、最小値を教師信号として学習させる。

図1 相関情報抽出ニューラルネットとその学習

 図2のように2つの視覚センサを持つ移動ロボットを考え、複数の情報源からの信号として、視覚センサ信号と運動に関する信号を与えて前述の学習を行わせた。すると、ニューラルネットは、図3のように、物体の大きさ等が変化しているにもかかわらず、相関情報として視覚センサから物体までの距離の情報を、教師信号を与えなくても学習によって抽出することができるようになった。また、抽出すべき情報の次元が複数ある場合には、他の出力の偏差が小さく、自分の出力の偏差が大きい場合に値域拡大学習を適用することによって出力間の直交化が実現できる。

図2 視覚センサ信号と運動の信号から物体との距離を学習するロボット図3 物体との距離に対するニューラルネットの出力
3.時間軸スムージング学習と局所センサ信号の統合

 我々生物は、センサからの情報を元に、将来、より良い状態になるように動作を行う。この時、センサから得られる空間的な情報から、その情報が得られる状態の時間的な位置を知ることは重要である。これを実現する学習方法が時間軸スムージング学習である。ここでは、図4のように、センサ信号を階層型ニューラルネットに入力し、その出力が時間と共に滑らかに変化するように、つまり、出力の時間に対する2階微分値を0に近づけるという学習を行う。これによって、出力が時間に対して単調に変化するようになれば、この出力は時間をコーディングしていると言える。

図4 時間軸スムージング学習

 我々の住んでいる環境では、ほとんどの空間的な情報は滑らかにしか変化しないように見える。この仮説の下では、時間的に滑らかに変化する出力は、空間情報を表現していることになる。一方、視覚や触覚などのセンサは、局所的な受容野しか持たないセンサセルをたくさん並べることによって空間的な情報を獲得している。そこで、図5のように、動く物体と視覚センサおよび階層型のニューラルネットから構成されるシステムを考える。視覚センサは、複数のセンサセルよりなり、各セルは、受容野中で投射された物体が占める面積の割合を出力し、それをニューラルネットへ入力する。そして、時間軸スムージング学習を適用する。ただし、相関情報抽出学習の場合と同様、出力の値域を確保するため、値域拡大学習を適用する。これによって、時間と共に滑らかに変化するように学習された出力は物体の位置を表現していることになる。

図5 局所センサ信号統和学習システムの構成

 センサセル30個をオーバーラップなく1次元に配置し、物体が視野内を左右に単振動している状況で学習させた場合の物体の位置に対する出力の様子を図6に示す。30個のセンサセルが局所的な受容野しか持っていないにもかかわらず、学習によってニューラルネットの出力は物体の位置を表現することができるようになった。また、この学習を利用して、頭部位置によらない物体位置の認識、前庭動眼反射、物体追跡の眼球運動等のモデルをたて、その機能を確認した。

図6 学習後の物体の位置と出力の関係
4.強化学習に基づく能動認識機能の学習

 認識や認識のためのセンサの動作は直接報酬や罰に結びつかないが、適切にセンサを動作させて正しく対象を認識できれば、適切な動作を行うことができ、報酬に結びつくと考えられる。そこで、より報酬を得るための学習アルゴリズムである強化学習を認識やセンサ動作の学習に適用することを提案した。

 図7のように、視覚センサの信号を入力とし、認識用とセンサ動作用の2種類の出力を持った階層型ニューラルネットを用意する。そして、センサ動作用出力に従ってセンサを動かし、認識用出力の値と理想認識出力との距離の時間変化量を強化信号として得られるシステムを考える。そして、その強化信号を元に、認識出力とセンサ動作を並列に学習する。

図7 能動認識の学習システムの構成

 0から9までの数字のパターンを提示して学習させたところ、学習後には、センサの初期位置を変えてもパターンを正しく認識できるところにセンサを動かしてほぼ正しく認識できるようになった。動作後の認識の正解率は99%以上となった。一方、センサを動かさないで、認識だけの学習を行ったところ、93%の正解率しか得られなかった。このことから、センサの動作まで学習させることによって、効率的な認識システムが実現できたと言える。

5.時間軸スムージング学習に基づく遅延強化学習

 報酬を得るための動作を学習するアルゴリズムである強化学習では、通常、一連の動作をした後にしか報酬が得られないため、得られた報酬からそこまでの動作をいかに強化するかが学習のポイントとなっている。Bartoらは、将来にわたる報酬の重みづけ総和(未来に行くほど重みを指数関数的に減少させる)を最大化するという観点から、その総和をセンサ信号から予測するように学習し、さらに、その予測値が大きくなるような動作を学習する方法を提案している[1]。

 筆者は、単一の報酬に対する強化学習を考えた場合、報酬を得るまでの時間で状態を評価することが妥当であると考えた。そこで、ニューラルネットにセンサ信号を入力し、評価値出力に対して時間軸スムージング学習を拡張した時間変化量を一定にする学習を行い、報酬を得た時には評価値を大きくする学習を行う方法を提案した。これによって報酬を得るまでの所要時間を評価値として学習し、この値に基づいて動作を学習する。この時の学習システムの構成を図8に示す。また、前述のBartoらの方法も、指数関数によって所要時間を表現していると解釈できることがわかった。

図8 遅延強化学習の学習システムの構成

 そして、図9のような局所的な受容野を持つセンサセルよりなる視覚センサ信号を入力とする移動ロボットを考えて、目標物に到達した時に報酬がもらえるという設定で学習させた。すると、図10のように、視覚センサの各セルは局所的な受容野しか持っていないにもかかわらず、目標物がロボットに近ければ近いほど良いという滑らかな評価関数を学習によって獲得し、ロボットが回転して目標物の方を向いてから前進するというほぼ最適な経路を獲得することができた。また、この時にニューラルネットの中間層ニューロンは空間情報をきれいにコーディングし、かつ学習に必要なところが拡大して表現されていることがわかった。また、環境やロボットの運動特性に非対称性を持たせると、それに合った学習をし、障害物を置いて、障害物のみを捉える視覚センサを持たせて学習させると、障害物を避ける動作を学習することができた。

図9 シミュレーションで用いた視覚センサ付き移動ロボット図10 学習後の評価関数の形状(等高線)とロボットの経路(ロボット中心座標)
6.まとめ

 自律学習のための学習アルゴリズムとして、空間と時間の対応付けを行う時間軸スムージング学習、複数の情報源の相関情報を抽出する相関情報抽出学習および値域拡大学習という3つの汎用的な学習則を提案し、センサ信号の統合や動作の学習に適用することによって、その機能を確認した。

参考文献[1]Barto,A.G.,et.al.,IEEE Trans.SMC-13,pp.835-846(1983)
審査要旨

 本論文は「ニューラルネットを用いた自律学習システムの研究」と題し8章により構成されている。

 第1章は「序論」であり、本研究の背景と目的,および概要と意義について述べている。ここでは、従来の知能システムを知識付与型知能システムと位置づけ、そこからの質的変革を目指すためには、生物を手本とした自律学習、つまり、外界とのフィードバックループを通してシステムが自律的に学習することが重要であることが述べられている。そして、少ない情報から多くの機能を学習することが柔軟な機能の獲得に結び付くことを説明すると共に、パターン情報の処理、学習の重要性とニューラルネット適用の利点について述べている。

 第2章は「基本となる学習アルゴリズム」と題し、本論文で用いた学習アルゴリズムに関して説明している。特に、本論文で提案し、基礎となっている二つの学習則「相関情報抽出学習」と「時間軸スムージング学習」に関してその概要が述べられている。「相関情報抽出学習」は、異種情報源からの信号、特にセンサ信号と運動の信号、または複数種のセンサ信号に共通に存在する情報(相関情報)が、生物にとって重要な情報であるという考え方を基として、その相関情報の抽出を学習する方法である。具体的には、異種情報源からの信号を別々の階層型ニューラルネットに入力し、その出力を他の出力の教師信号として、バックプロパゲーション法に従って学習させる。もう一つの学習則である時間軸スムージング学習は、空間的な広がりを持つセンサ信号をもとに、現在の状態の時間的な位置づけを知ることが重要であるという観点から生まれた汎用的な学習則である。そして、空間的な信号を階層型ニューラルネットに入力し、その出力の時間による2階微分値を減少させるようにバックプロパゲーション法を用いて学習させるという簡単な方法で、実現している。

 第3章は「相関情報抽出学習と空間認識モデル」と題し、第2章で述べた相関情報抽出学習を用いて、視覚の情報と運動の情報の相関情報の抽出を学習することによって、視覚センサが捕らえている物体との距離が出力になることを示している。そして、二つの視覚センサを用いたシミュレーションによって、物体の大きさ等が変化しても物体の位置を学習できることを確認している。また、抽出すべき相関情報が複数次元の場合に関しても言及し、複数の出力間の独立度を定義して相関情報抽出学習を拡張し、複数の出力を直行化させることができることを示している。

 第4章は「時間軸スムージング学習による局所センサ信号の統合」と題し、空間的な情報が時間的に滑らかにしか変化しないという仮説の下で、局所的な受容野しか持たないセンサセルからの信号をニューラルネットに入力し、時間軸スムージング学習を適用することによって、局所的な受容野しか持たない多数のセンサセルからの信号を統合し、空間情報をアナログ値として抽出できることを示している。そして、シミュレーションで30個のセンサセルが一次元に配列された視覚センサを仮定し、その前を左右に単振動している状態で学習し、物体の位置を教師なしで学習できることを示している。

 第5章は「局所センサ信号統合化学習に基づく視覚システムの学習モデル」と題し、第4章で提案したシステムを拡張し、頭部位置が変化しても物体の位置の出力が時間的に滑らかに変化するように学習させることにより、頭部位置の補償や、前庭動眼反射のような眼の動きを学習できることを示めしている。さらに、物体の位置出力の時間変化が大きくなるようにという評価を与えることにより、物体を追跡するという眼の動きの学習の可能性を示している。

 第6章は、「強化学習に基づく能動認識」と題し、認識や認識のための動作を目的達成のための動作の一部とみなすことによって強化学習を適用することを提案し、簡単な文字認識などに適用できることを示している。ここでは、学習則自体は逐次強化信号が得られる強化学習という一般的な学習則を用いているが、認識や認識のための動作を通常の目的達成のための動作として位置づけられ、強化学習の能力をさらに引き出すものであるということを述べている。

 第7章は、「時間軸スムージング学習による遅延強化学習」と題し、遅延強化学習を目的達成までの所要時間の最適化問題と捉えることにより、時間軸スムージング学習を拡張した評価値の時間変化量一定化学習が、センサ信号から所要時間の評価を学習することに用いることができることを示している。また、視覚センサ信号を入力として、階層型ニューラルネットによってこの遅延強化学習を行うことにより、中間層に目標物の位置情報がきれいにコーディングされ、さらに学習に重要なところが拡大されて表現されていることを明らかにしている。また、障害物を提示した場合も、それを避けて目標物に向かう動作を学習できることを示している。

 第8章は「結論」であり、本研究の成果のまとめおよび今後の課題について述べている。

 以上を要するに、本論文は、時間軸スムージング学習と相関情報抽出学習という二つの汎用的かつ適応性を有する自律的なニューラルネット学習則を提案し、それらをセンサ信号の統合、センサ動作の学習、および強化学習による動作獲得へ適用する方法を示したものであり、ニューラルネットワークの分野へ貢献するところが少なくない。

 よって博士(工学)の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク http://hdl.handle.net/2261/53991