学位論文要旨



No 129056
著者(漢字) 増山,岳人
著者(英字)
著者(カナ) マスヤマ,ガクト
標題(和) 行動経験の変換不変性に基づく移動ロボットの行動学習
標題(洋)
報告番号 129056
報告番号 甲29056
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7947号
研究科 工学系研究科
専攻 精密機械工学専攻
論文審査委員 主査: 東京大学 教授 淺間,一
 東京大学 教授 太田,順
 東京大学 准教授 山下,淳
 東京大学 准教授 大竹,豊
 早稲田大学 教授 尾形,哲也
内容要旨 要旨を表示する

本論文では,過去に獲得した知識を用いて積極的に探索空間を縮減することで,未知環境におけるロボットの試行錯誤的な行動学習を効率化する手法を提案する.提案手法は,短時間的な行動の組み合わせから構成されるスキルの獲得と利用によって学習の効率化を行う,内発的動機づけを導入した階層型強化学習を基盤としている.ここでの内発的動機づけとは,特定のタスクに依存しない形式で用いられる報酬信号による動機づけである.

従来の内発的に動機づけられた階層型強化学習では,環境とロボットとの相互作用の過程から有用なスキルを累増的に獲得し,スキル間の関係性を構造化する方法論についての議論が中心であった.しかしながら,学習の進行に伴ってより長時間的なスキルが獲得されるようになり,行動の階層構造が拡張される程探索空間が拡大し,階層構造の上位層における見かけ上の学習速度の低下が起こる.これは状態行動空間における学習の効率化や,その継続性を重視し,網羅的な経験の収集を試みる探索戦略に起因する問題であると考えられる.この問題に対し,本論文ではスキルを用いて積極的に探索空間を縮減し,選択的な探索に基づく学習を行う手法について論ずる.スキルに基づく探索空間の縮減を行うことで,既存知識の現在の環境における利用結果を評価し,探索空間を下位層の行動空間から上位層のスキル空間に移すことが本論文の狙いである.

まず,本論文ではスキルは過去の成功経験から抽出されるものとする.具体的には,ある特定のタスクに対する最適方策の実行によって得られる有限の行動の順序集合と,それらの行動系列の実行に伴って観測されるセンサ情報の系列を低次元化した量の直積集合という形式でスキルを定義する.センサ情報の系列を低次元化した量は,新たな環境におけるスキル実行の結果に対して,過去の成功経験の再現性を抽象的に評価する尺度として利用する.経験の再現性に対して内発的動機づけを与え,スキルの価値に基づいた行動選択過程へのバイアスを印加することで,スキルによって構成される経路を中心とした指向性をもった探索が行われる.さらに,そのような経路候補はタスクを記述する外発的報酬によって絞りこまれ,状態空間を網羅的に探索することなく,効率的に学習を行うことが可能となる.

経験の再現性の尺度となる時系列の低次元化量としては,アファイン変換不変量を導入する.これにより,特徴空間においてアファイン変換でモデル化される不要な情報に対する不変性を利用して,抽象的な経験間の対比を行う.本論文では,移動ロボットのナビゲーション問題において,観測情報の対称性などの情報を捨象するためにアファイン変換不変量を利用する.これを用いて,成功経験の再現性を特定の観測情報からの距離などではなく,抽象的な形式で計る.

具体的な学習手法は,Q-learningなどのTD学習(Temporal Difference learning)を基盤としている.TD学習などで一般的に用いられる行動価値関数に加えて,ある状態におけるスキルの価値を表すスキル価値関数を並列に学習する形式となっている.ロボットの行動は,各状態における行動価値関数に基づいて選択される.他方,各状態ではいずれかのスキルが選択されており,行動選択過程においては選択されているスキルに基づく一時的なバイアスが,スキルの指定する行動の価値に加えられる.スキル価値の学習過程には外発的報酬だけでなく,スキル実行の結果得られる観測情報から計られる,経験の再現性に対する内発的動機づけが与えられる.また,スキル価値の更新にはスキル実行の結果遷移する状態における行動価値が利用される.そのため,スキル実行の結果,よりよくタスクを実行し,過去の成功経験の再現性が高く,より高い行動価値をもつ状態への遷移を実現するスキル程高い価値をもつことになる.

上述の更新則にしたがってスキル価値を学習し,行動選択過程への一時的なバイアスを印加することで,高い正の価値をもつスキルが選択された場合は,そのスキルが指定する行動が選択される確率が上昇する.逆に負の価値をもつスキルが選択された場合は,そのスキルが指定する行動が選択される確率は低下する.その結果,スキルとその価値によって行動選択の戦略に偏りが生じ,探索空間が縮減することになる.この探索空間の縮減によって以下のような効果を得ることができる.

学習初期においては,全ての状態において行動及びスキル価値はほぼ同一の値をとっている.そのため,Q-learningやSarsaといった代表的なTD学習手法では初期状態を中心として等方的に探索範囲を広げる探索戦略がとられる.他方,提案手法ではスキル価値によって探索が方向づけられる.提案手法では,状態行動空間における探索と同様に,状態スキル空間における探索が行われるが,スキル価値の更新則には過去の成功経験に対する再現性に対する内発的報酬が与えられる.経験の再現を試みること自体はタスクの実行効率に直接寄与するものではないが,これによって探索は等方的ではなく,成功経験に由来する指向性をもつことになる.その結果,成功経験がもつ行動系列の指向性を担保する,探索の中心となる経路候補が行動価値上に構成される.さらに,学習が進むとそれら複数の経路候補は外発的報酬によって絞りこまれ,より選択的な探索が実行されるようになる.そしてスキルの指定する行動の,タスク実行という目的に対する整合性は,外発的報酬に基づく行動価値の学習によって調整される.その結果,通常のTD学習と異なり,提案手法では全ての状態行動対を訪問するような探索戦略はとられず,スキルという既存の知識に基づいた選択的な学習が行われる.これにより,学習速度を向上させることが可能となる.

以上の提案手法の有用性を,本論文では2次元グリッドワールドにおけるナビゲーション問題を例に検証している.過去の成功経験に基づいた指向性をもった探索を行うことの効果として,学習初期において行動価値とスキル価値の並列学習構造によって学習時間が大幅に短縮されることが示されている.また,経験の再現性に対する内発的報酬の導入によって,収束性能が向上するという結果が示されている.さらに,提案手法の探索空間の縮減効果によって,状態数が増大しても安定した学習性能の向上効果を得ることができることが示されている.

上述の提案手法により,タスクに対して適切なスキルに基づく探索空間の縮減効果が学習を加速することが可能となる.しかしながら,累増的なスキル獲得を想定した場合には,ロボットが未知環境において探索に利用できるスキルは必ずしもタスク実行において有用なものばかりではない.また,環境と身体の複雑さに応じて,スキル数は膨大なものになる場合があると考えられる.タスクに対して不適切なスキルの実行と,スキル数増大による一回のスキル実行当たりの相対的な学習量の低下は,ともに学習効率を低下させる要因となる.本論文では,この問題に対し,スキルの類似度に基づく適格度トレースを導入している.一般的な適格度トレースでは,実際に実行した行動やスキルのみに対して高い適格度を付与する.本論文では実際に実行していない全てのスキルについても,実際に実行されたスキルに対する類似度に応じた適格度を与える.これにより,スキルが多様化し,スキル数が増大した設定においても有用な探索空間の縮減を行うことが可能となる.

未学習の環境において,不適切なスキルの実行はスキル価値を低下させる.類似度に基づく適格度トレースによって,斉次的にスキル価値を更新することで,スキル実行当たりの相対的な学習量低下の問題が解決し,負のスキル価値に基づく探索空間の縮減が利用可能となる.さらに,変換不変性を用いた経験の再現性の評価に基づく内発的異報酬により,探索中心の候補となる経路が行動価値関数上に構成される.その結果,様々な方向性をもった,大量のスキルを利用する場合にも,提案手法による探索空間の縮減効果を得ることが可能となる.

以上のように本論文では,スキルという知識に基づく探索空間の縮減機能を強化学習手法に実装する枠組みを提案し,その有用性を示している.未知環境で自律的に運用可能なロボットシステムの構築のためには,ロボットのセンソリモータ系の,環境に応じた適応的な構造化が必要となる.本論文において示された結果は,そのような手法がもつ探索空間の拡大に伴う学習時間の増大という問題に対し,既存の知識を利用することによる選択的な学習の重要性を示唆している.

審査要旨 要旨を表示する

増山岳人氏の博士論文は「行動経験の変換不変性に基づく移動ロボットの行動学習」と題し,全6章より構成される.本論文では未知環境で運用可能な自律ロボットの設計論の構築を背景とし,移動ロボットを制御対象とした強化学習の学習速度を向上する新たな枠組みを提案している.

第1章では,自律ロボット研究に関する研究領域の1つである発達ロボティクスを取り上げ,明示的な教師信号が与えられない中でロボットが自律的にそのセンソリモータ系を構造化していくための方法論について述べている.特に強化学習研究における,短時間的な行動を1つのまとまり(スキル)として,累増的にスキルを獲得しスキル間の関係性を記述する,内発的動機づけを導入した階層型強化学習が1つの有力な方法論であると主張している.また,最適性を意識した設計論に基づく従来手法の,階層構造の拡張に伴う見かけ上の学習速度の低下という,自律ロボット制御の方法論としてのボトルネックを指摘している.この問題を解決するために,本論文では知識に基づいて探索空間を積極的に縮減するトップダウン処理を,階層型強化学習に実装する枠組みの構築を目的とすることが述べられている.

第2章では,関連研究との対比から,本論文の位置付けと従来研究の問題点を明らかにしている.また,本論文の狙いであるトップダウン処理の枠組みについて概説されており,これは過去の成功経験から抽出されたスキルを,新たな環境において実行したときに観測される経験の再現性にもとづいて実装されると述べている.

第3章では,効率的に探索空間を縮減するためには,経験の再現性を計るための尺度として,距離のような概念ではなく,長距離的な依存関係をも記述し得る形式を与えることが重要であるとの認識に基づいて議論が展開されている.具体的な経験の再現性の尺度として,本論文では音声認識研究において提案されたアファイン変換不変量に着目している.これはスキル実行に伴って観測されるセンサデータ系列に関する,アファイン変換によってモデル化される情報を捨象した特徴量として利用することができる.そのため,移動ロボットが扱う環境の幾何形状を反映したセンサデータから,スキルという行動の実行に伴う情報を抽象化することで,適応的に経験間の類似性を計る尺度として利用可能であることが示されている.

第4章では,第3章で導入した変換不変量によって計られる経験の再現性に基づいて与えられる内発的動機づけを導入した階層型強化学習手法を提案している.提案手法は行動価値と,各状態におけるスキルの価値を表すスキル価値を並列に学習する階層構造をもつ.行動価値の学習には一般的な強化学習手法が用いられる.他方,スキル価値の学習においては上述の内発的動機づけが導入される.スキル価値は,行動価値に基づいて行われる行動選択の過程に対し一時的なバイアスを与える.このバイアスによってスキルの指定する行動の選択確率が操作され,経験の再現性に基づいた状態行動空間における探索空間の縮減が実現されると述べている.

また,本論文で提案されるトップダウン処理による探索空間の縮減効果の有効性を検証するためのシミュレーション実験が示されている.実験結果より.最適性を意識した一般的な強化学習が価値関数のマップを学習する等方的な探索を行う一方で,提案手法ではスキルによって状態行動空間上に構成されるパスに沿った,指向的な探索が実現されることが示されている.また,代表的な階層型強化学習手法との比較実験によって,提案手法の探索空間の縮減効果と,階層型強化学習による意思決定の効率化の違いが示されている.

第5章では,第4章で提案した手法の問題点として,累増的に獲得することが想定されるスキルの多様化及びスキル数増大に伴う学習効率低下の問題が扱われている.この問題を解決するために,適格度トレースと呼ばれる,強化学習における基本的なメカニズムのスキルの類似度に基づいた拡張が行われている.これによりロボットの行動の履歴に基づいて,スキル価値が斉次的に学習されることでスキルの多様化とスキル数増大に伴う学習速度低下の問題が解決されると述べている.

シミュレーション実験により,様々なスキルをロボットが所持している場合にも,学習速度の低下が抑えられ,より一般的な条件でも提案されたトップダウン処理が有効に利用可能であることが示されている.

第6章では,本論文の成果が総括されている.また,今後の発展として強化学習研究としての技法的な発展性,実ロボット制御問題に適用する際に想定される課題,そして自律ロボットの設計論に関する展望が述べられている.

以上,本論文では従来の階層型強化学習における,最適性を意識した等方的な探索に対して,実時間で準最適な解を素早く獲得する,自律ロボットの即時性を意識した探索空間縮減の枠組みを構築している.シミュレーション実験により,提案されたトップダウン処理の有用性が確認されており,博士論文として十分なオリジナリティとコントリビューションがあると判断する.

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク