学位論文要旨



No 121944
著者(漢字) 西本,隆之助
著者(英字)
著者(カナ) ニシモト,リュウノスケ
標題(和) 力学系の初期値敏感性を利用した組合せ的時系列の学習生成モデル
標題(洋)
報告番号 121944
報告番号 甲21944
学位授与日 2006.12.25
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第692号
研究科 総合文化研究科
専攻 広域科学専攻
論文審査委員 主査: 東京大学 助教授 池上,高志
 東京大学 教授 嶋田,正和
 東京大学 助教授 植田,一博
 東京大学 助教授 開,一夫
 東京大学 理研チームリーダ 谷,淳
内容要旨 要旨を表示する

1. 導入

 人間において多様な行動の組合せがどのように学習そして生成されるかは興味深い問題として様々な研究分野で議論されている。従来の人工知能分野においては、多様な行動は恣意的な記号の組合せで表現されると考えられてきたが、そのような記号操作のメカニズムと脳内メカニズムの対応は今だ理解されていない。一方近年、神経科学の分野では、マカク猿の電気生理実験において特定の組合せ的行動前にのみ発火する運動準備ニューロンがある事が示された。このことは、なんらかの抽象化された静的な情報から組合せ的な行動時系列が連続的に生成されるメカニズムが脳内に存在する可能性を示唆している。

 本論文では、連続的でかつ組合せ構造を持つような行動生成のメカニズムとして、決定論的なリカレントニューラルネットワーク(RNN)モデルを用いた時系列の学習生成モデルを提案し、シミュレーション及び、ヒューマノイドロボットを用いた行動学習実験を行ない、その特徴、汎化性能について議論する。提案するRNNモデルは、決定論力学系の性質を用い、異なる初期値から異なるセンサアクションの時系列を学習生成する。センサアクション時系列の学習においては、ネットワークのシナプスの結合強度の学習に加え、各教師時系列ごとにコンテクストの初期値を自己組織化させる。タスクとして、ロボットが迷路のような環境を移動するような場合を想定すると、迷路の分岐はグラフ構造で表され、ロボットが目的の場所に到達する経路は分岐の組合せにより無数にある事になる。このような組合せ的な行動が、提案するモデルの決定論カオスの初期値敏感性の性質を利用する事によって、初期状態の違いのみにより、汎化性能を含んだ形で生成される事を示す。また、組合せ的な構造を含む時系列が、アトラクタとしてではなく、複雑な過渡状態によってもエンコードが可能であることを示し、生成のロバスト性や汎化性能についても議論する。さらに、ヒューマノイドロボットタスクの様な多自由度で長いタイムステップを扱う実験系において、連続時間系RNNを用いた行動学習実験を行ない、初期値から生成される行動の汎化についても調べた。

2. 初期値敏感性を利用した組合せ的な時系列学習のモデル

 この章では決定論的なジョーダン型RNNを用いて、有限状態オートマトン(FSM)から生成された組合せ的な時系列がどのように学習されたかについて示す。

 実験環境として、図1に示すFSMで表された分岐のある閉じた環境を用意し、FSMのステートをセンサ入力、分岐の選択をアクションとして、環境内を動作するエージェントを想定する。エージェントがFSM上を3周した際に受けたセンサ入力と、分岐の選択をアクションとして、教師時系列とした。3周の時系列の組合せは3ゴール3周の組合せで33=27通りとなるが、本実験では学習による汎化能力の試験のため、全27通りの組合せの内、21通りの時系列をトレーニングデータとして用いた。

 RNN(図2)の学習は通常のバックプロパゲーションスルータイム(BPTT)アルゴリズムを用いて行なうが、RNNの結合の重み係数を求めるのと同時に各教師時系列に対応したコンテクストの初期値も自己組織化させた。50000ステップの学習プロセス終了後、コンテクストの初期値を様々に変化させて、センソリーモータの時系列を生成させた結果、不完全な教師データしか学習に用いていないにも関わらず、環境内を3周する27通りのすべての時系列を生成することができた。また、教師データとして全く与えていない4周以上の時系列の組合せにおいても多くの場合の組合せを生成可能であった。(表1)

 以上の結果から、RNNは限られた教師データの中からFSMの分岐構造を抽象化し、組合せ可能な形である程度の汎化学習をすることができたといえる。自己組織化されたコンテクストの初期値空間について解析を行なった結果、FSMの分岐に従ってコンテクスト空間がある程度の相似性を伴って分割されていた。このように初期値空間にフラクタルな構造を作る事で、ネットワークは組合せ的な汎化学習を行なったと考えられる。

 次に、学習過程における力学系の変化について調べた。学習プロセスにおいて、エラーがほぼ収束した後にも力学系のアトラクタはリミットサイクルやカオスアトラクタなど急激な変化が頻繁に起こるのに対し、初期値から生成される過渡状態は学習過程においてなだらかに変化しており、エラー収束後も安定している事が解った。また、自己組織化された初期値から生成される過渡状態を調べた結果、FSMの一周が約5ステップなのに対して数100から数1000ステップほどの長い過渡状態が続いていた。これらの結果から、FSMの組合せ的な構造は、力学系のアトラクタ上ではなく、過渡状態ダイナミクス上に獲得されたと結論できる。

3. 初期値敏感性を利用した連続時間RNNモデル

 ヒューマノイドロボットを用いた行動学習実験では、多自由度かつ連続に変化していくステップ数の長い時系列を学習する必要がある。3章では2章で提案したマップ型RNNモデルを連続時間系拡張した、新たな連続時間RNN(CTRNN)モデルを提案し、ヒューマノイド型ロボットを用いて長いタイムステップの行動学習実験を行なった。

 2章で提案したモデルは、比較的短いステップ数の時系列を扱う場合、自己組織化される初期値により組合せ的な汎化学習を行なう事ができた。しかし長いステップ数の時系列の学習では、BPTT時に各教師データ間の差分情報の減衰が激しく初期値の組織化が困難となった。

 提案するCTRNNモデルでは、センサモータ入力に対し、次ステップ入力との差分を出力する形とし、出力ノードの内部状態に慣性項と減衰項を設けることで、出力される時系列をなだらかに変化させた。また、コンテクストループの時定数とセンソリーモータの時定数はそれぞれパラメータで設定する事で、センサ入力に影響されずよりコンテクストに依存した形で学習を行なう事ができる。学習は通常のBPTTアルゴリズムを用いて行ない、2章で用いたモデルと同様、各教師時系列に対してコンテクストの初期値の自己組織化を行なう。

 実験タスクはヒューマノイドロボットを用いて、図3に示す3種類の対象物操作行動を学習させ、コンテクストの初期値を変化させることで各行動を切替えを行なう事を目標とした。各行動時系列はCTRNNのタイムステップでそれぞれ69-79ステップとなり2章で用いた教師時系列に比べかなり長い時系列を用いた。また、対象物の位置に対する行動の汎化性能を検証するため、対象物の位置を作業領域上で「右」「左」「中央」と変化させて教師データを作成した。この時ロボットの行動時系列の全組合せは9種類となる。

 100000ステップの学習後、自己組織化されたコンテクストの初期値はロボットの動作についてのクラスタ構造が見られた。(図4)各クラスタ内の初期値を設定する事で、対象物の位置に関わらず、それぞれに対応した行動を生成する事ができた。この時ロボットの動作は、対象物の位置情報の入力によって力学系が引き込まれる形で対象物を把持した後、設定された初期コンテクストの情報により対象物に対する行動の切替えを行なっていた。

 学習時にコンテクストループの時定数のパラメータをセンサモータループの時定数より大きくすることで、対象物の位置の違いに基づくセンサ情報の違いにそれほど影響されず、動作後半部の対象物の操作に対して初期値の組織化が行なわれたと考えられる。

 このCTRNNを用いた学習モデルでは長いタイムステップにおいても初期値の自己組織化が行なわれ、ロボットの行動学習のような多自由度、長時間の学習において非常に有効な手段となることが示された。また本モデルでは、対象物の位置などの環境状況の変化に行動を逐次適応させるといった汎化性能を持ちながら、目標とする行動を自己組織化により初期値に埋め込む事が可能である事が示された。

4. まとめ

 本論文では、新たなRNNを用いた行動学習モデルを提案し、学習時に教師時系列それぞれに対応したコンテクストの初期値を自己組織化させることにより、様々な汎化能力を含んだ形で組合せ的な時系列が学習生成できる事を示した。また、本論文で提案した、時系列構造を静的な初期値の構造に抽象化し、その抽象化した情報から時系列を再構成する方法は、記号系に置き換わる新たな神経力学系での表現の可能性を示唆した。この様な力学系に基づく手法は、従来人工知能で用いられて来た恣意的な記号操作の様式では困難であった組合せ的な行動の経験に基づく汎化学習を可能にし、ロボットの行動学習生成の問題にも有用であることが示された。また、組合わせ的な時系列が静的な初期値のみによって記銘可能であるため、時系列情報の圧縮が可能となり、より大規模な認知モデルを構築する際のインターフェイスとしても応用可能であると考えられる。

 今後は、本論文で提案したモデルや汎化傾向の異なる他の様々なモデルを組み合わせる事でより複雑な認知システムのモデルを構築し、実世界を対象とするロボットの行動学習実験を行なうことで、認知的な行動学習や複雑な環境下で安定に動作するメカニズムについての理解を深めていきたいと考えている。

図1: FSM環境

図2: RNNモデル

表1: 各周期における生成可能な組合せの割合

図3: 実験タスク: 共通の初期状態から対象物を把持し、その後(a)「持ち上げ」(b)「左に移動」(c)「右に移動」のいずれかの動作を行なう

図4: 初期値空間: 自己組織化したコンテクストの初期値を示す(a)(b)(c)の各行動がクラスタとなっている事が見てとれる

審査要旨 要旨を表示する

 本論文は、力学系の初期値敏感性の特性を利用した人工神経回路網モデルを提案し、そのモデルの教師時系列の学習及び再生成の特性について示している。

 具体的には、リカレントニューラルネットワークのコンテクストの初期値の自己組織化を行なう新しい学習モデルを提案し、そのモデルが学習により教示時系列に内包される組み合わせ的構造を獲得でき、また学習時に用いていない未知の時系列パターンも汎化生成可能な事を示した。さらに、提案した学習モデルを連続時間系に拡張し、ロボットの対象物把持行動の学習生成実験において、環境の変化に対しロバストに目的となる行動が行なわれる事を示している。審査委員会はこのような研究は従来にない新規なものであると認識した。

 本論文は4章から構成されており、その構成は妥当なものである。第1章では、行動の組合せ合成可能性についての研究背景として、従来の力学系に基づく認知モデルについて紹介し、それらの問題点について論じている。また、電気生理実験や人間の心理実験についての研究結果と、力学系の初期値敏感性の性質との関連性について論じている。これらの議論から、組合せ的な行動の学習生成メカニズムを説明するものとして、決定論力学系に基づく時系列の学習生成モデルを提示している。

 第2章では、複数の時系列を学習させる問題において、リカレントニューラルネットワークのコンテクストの初期値を各教示時系列ごとに適応させながら神経結合重みを自己組織化させていく方法を提案している。提案するモデルの検証実験として、有限状態機械で表現される迷路環境内でエージェントが目的の場所へと移動するナビゲーションタスクについて、シミュレーション実験を行なっている。実験結果から、学習により自己組織化されるコンテクストユニットの初期値が、フラクタル状の入れ子構造を獲得する事が判明した。また、ネットワークモデルは、獲得されたフラクタル状の構造を利用する事で、未知の組合せの時系列を生成可能である事が示されている。さらに、本実験では、従来記号力学系の研究で示されてきた、組合せ的な構造のカオスアトラクタへの埋め込みではなく、初期値から生成されるトランジェント上への埋め込みとなる事を示した。以上のシミュレーション実験の結果から、本論文で提案しているコンテクストの初期値を自己組織化する方法が、神経力学系において、記号系の代替となる新たな抽象化表現の可能性について論じ、新しい決定論的な行動プランニングの可能性について議論を行なっている。この章において、筆者の独自の手法の基礎が示されており、またその基礎計算機実験の結果は非凡であると考えられる。

 第3章では、第2章で用いたモデルを、さらに連続時間系に拡張した新たなモデルを提案し、実ロボットを用いた対象物把持行動について、学習生成実験を行なっている。実験結果より、実ロボットを用いたノイズの多い実験環境下においても、安定にコンテクスト初期値の自己組織化が行なわれ、対応する各行動を生成可能である事を示している。また、ロボットは環境から入力される知覚情報に適応しながら、初期状態で与えられた目的の行動を安定に達成する事が示されている。このとき、自己組織化されるコンテクストの初期値空間は、対象物の位置やロボットのノイズに影響されず、目的となる対象物操作行動が、クラスタ状の構造として表現される事が判明した。また、実験結果の解析において、提案するモデルの時定数パラメータを変化させた場合、ゴール情報を保持したトップダウン的流れと、環境からの入力情報に適応するボトムアップ的な流れとのバランスが変化し、結果として、ロボットの対象物操作行動に影響が現れることが示されている。また、一連の行動が、より細かい行動プリミティブの組合せ時系列から生成されていると見なせることにより、本学習の結果においてあたかも記号的な構造が連続時間力学系上に抽象化表現されているという議論を行なっている。このように、筆者は、独自の基礎モデルを連続時間系に発展させ、さらにロボット実験というより実世界に近い部分での検証を、主要パラメータの広い範囲で行なったことは、評価に値する。ただし、このロボット実験においては、前章の基礎数値実験で見られたような、初期値の入れ子構造の自己組織化による記号の再帰的な組み合わせの生成といった様相までは示されていない。今後の研究において、この部分の進展があることを期待したい。

 第4章では、第2章と第3章の結果について簡潔にまとめ、本論文を通して明らかになった問題点について論じ、ロボットの行動学習実験において今後行なうべき課題について検討を行なっている。

 本論文で示された、神経回路力学系の初期値を自己組織化する事による時系列構造化学習の手法は、高次認知メカニズムの理解に向けた行動学習の基礎モデルとして興味深く、またロボット行動学習への応用としても有用であると考えられる。また、行動生成のメカニズムについて、力学系の初期値により組合せ的な構造の抽象化を行なうという議論は本論文独自であると考えられる。

 したがって、本審査委員会は博士(学術)の学位を授与するにふさわしいものと認定する。

UTokyo Repositoryリンク