学位論文要旨



No 117023
著者(漢字) 小林,祐一
著者(英字)
著者(カナ) コバヤシ,ユウイチ
標題(和) 強化学習のための自律分散型関数近似法
標題(洋)
報告番号 117023
報告番号 甲17023
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5164号
研究科 工学系研究科
専攻 精密機械工学専攻
論文審査委員 主査: 東京大学 教授 新井,民夫
 東京大学 教授 木村,英紀
 東京大学 教授 木村,文彦
 東京大学 助教授 湯浅,秀男
 東京大学 助教授 國吉,康夫
内容要旨 要旨を表示する

従来の離散的・記号的表象を基礎とした強化学習研究では重視されてこなかったが,強化学習の実問題への適用においては,情報表現の効率が学習性能に大きな影響を与える.つまり,強化学習の核をなす価値関数の更新アルゴリズムにおいて適切な価値関数の関数近似を行うことが重要である.強化学習における価値関数近似には,一般に

 ・非定常関数近似に適していること

 ・ブートストラップ型の関数近似において収束性がある程度保証されること

 ・学習に必要なデータを最小限にとどめること

などの要件が存在する.分解能の高い関数近似を行うためには,関数近似要素を増やすため必要メモリが増加することに加え,学習効率の問題が存在する.分解能を高くするためにはより多くの学習データが必要であるが,学習に必要なデータの増大は行動の試行錯誤量の増大につながり学習性能の低下を招く.このような意味から,学習にとって重要な領域のみに高い分解能を持つような表現,すなわち適応的な分解能を獲得する関数近似手法が重要な意味を持っている.

 適応的な分解能を自律的に獲得するための関連研究として,関数近似手法における逐次的な基底関数の追加方法や状態空間の自律的な分割手法などをあげることができるが,人手による調整が必要な設計要素が多いという問題が存在する.それに対し,本研究では自律的な情報表現獲得を目指し,

 設計自由度を低減した適応的分解能獲得型の関数近似手法

を提案した.強化学習における適応的に分解能を獲得する関数近似でこれまで注目されてきたのは近似精度や学習達成度であったが,本研究では価値関数の形状に着目し,勾配変化を適切に表現できるように勾配変化の大きい領域に密に,小さい領域に疎に分布するように適応的に関数近似要素を再配置するアルゴリズムを提案した.系(関数近似器)全体の秩序との関係を記述した形での局所的な関数近似要素の挙動を設計する手法としてグラフ上の反応拡散方程式を用いた方法を提案した.

 強化学習適用で想定するのは多次元入力1次元出力の陽関数であり,本研究では位置と勾配をもったノードによる超平面の組み合わせによって関数近似面を構成する.このノードを近傍を表すアークで結ぶことでグラフを構成し,各ノード近傍における近似関数の複雑度を定義する(図.1).各ノードの複雑度を均一にするようにノードを移動させる(図.2).勾配変化を反映した複雑度を定義することにより,ノードが勾配変化の大きい領域に密に,小さい領域に疎に分布するように挙動を設計する.そのための設計方法としてグラフ上の反応拡散方程式を用いた.

 グラフ上の反応拡散方程式は自律分散システムの理論であり,不均一に分布するサブシステムからなるシステムにおいて,全体としての秩序を形成するためのサブシステムの挙動を勾配系に基づいて設計する手法である.提案手法は,自律分散系のアルゴリズムの特徴であるシステムの拡縮性に優れるという特質をもつため,ノードの動的な追加・削除が容易であるという利点を有する.位置と勾配情報を持ったノードの近傍をアークで結ぶことによって境界付きグラフに適用を行う.このとき,ノード間のアークを構成する方法として,ユークリッドノルムに基づいた近傍を構成するTRN(Topology Representing Networks)アルゴリズムを用いた.

 複雑度の定義には,各ノードの近傍ノードに対する勾配変化と位置変化の積として定義した.この定義については,直観的には勾配変化とノードの密度が比例関係にあることと複雑度が一定になることが1次元では等価になることで設計指針に沿ったものであるという理解ができる.さらに,1次元においてSpline補間曲線の理論を用いて曲線近似誤差最小化問題との対応が取れることを示した.提案手法がノードの動的な追加を容易に行える方法であることに関して,また,近似目標関数を周波数領域に変換しサンプリング定理を適用することで,関数値のとるべき水準についての考察を行った.ノードの逐次的な追加に際しての関数近似がすでに充分な精度で達成されているかどうかの判断基準を従来研究のような近似誤差に基づく方法ではなく関数形状情報に基づく方法で目安を示した.

 提案関数近似手法の強化学習への適用方法として,Value Gradient法およびQ-learning法の状態価値関数および行動価値関数の近似を行う方法を示した.Value Gradient法では,状態価値関数をTD誤差学習により推定し,行動決定は近似した状態価値関数の勾配情報を用いて行う.Q-learning法では,要素行動の数だけ関数近似器を独立に用意し,各関数近似器は特定の要素行動に関する行動価値関数の近似を行う.プログラム実装に際しては,入力次元やノード数の増大に伴う計算量変化について考察を行った.

 提案する関数近似手法の性質の検証および強化学習例題を用いた性能向上の確認を行った.定常関数近似問題においては,位置推定および勾配推定の両者についてノード移動を適応的に行うことにより近似誤差を低減できることを確認した.また,複雑度を表す関数値の大きい領域に逐次的にノードを追加していく方法が複雑な形状の関数を近似する上で有効に機能することを確認した.図.3は1次元,図.4は2次元のガウス関数を近似し,ノード移動により複雑な領域に高い分解能を得るようにノードの再配置が達成されていることがわかる.1次元ガウス関数の近似問題では,同数のノードに対し,ノード移動により2乗近似誤差が1/5程度に低減された.

 強化学習への適用の評価に関しては,CMAC(Cerebellar Model Articulation Cotnroller)のような格子状に固定された関数近似方法との比較として,入力空間に格子状にノードを分布させ,固定したままの場合と,ノード移動や逐次的なノード追加を行った場合との比較を行った.また,ノードの追加を行うことは関連研究との対比では自律的な状態分割や基底の動的追加に対応しているが,「複雑度(関数値)の大きなノードの近傍にノードを追加する」という追加指標が有効に機能することを示した.強化学習例題には水たまり問題と1自由度振子振り上げ問題を取り上げ,各場合において,ノード数の変化,ノード移動の有無,ノードの逐次的追加による学習効率の変化を検証した.

 その結果,表1のような結果を得た.いずれの例においても,ノードの逐次的追加と移動の組み合わせにより同程度あるいはそれ以下のノード数でより大きい報酬積算値を得ていることがわかる.これより,ノードの移動と複雑度に基づく逐次追加が有効に機能していることが確認された.その他に得られた結果を含めて考察を以下に示す.

 ・固定ノード数の場合,ノード数が多い方が学習効率は改善されるが,一定個数よりも多くなりすぎると逆に学習効率は低下する.これは分解能が高すぎると逆に必要データ数の増加が強化学習性能に悪影響を与える可能性を示唆しているものと考えられる.

 ・ノード移動により,学習効率が改善できることを示した.この改善の割合は水たまり問題よりも問題設定を変更した2次元環境探索問題においてより顕著に表れた.このことから,ノード移動による適応的な分解能の変更が強化学習において有効であること,および勾配変化の表現効率が報酬値に影響を与えやすい問題ほどノード移動の効果が高くなることが確認された.

 ・ノードの逐次追加によって,学習効率が改善できることを示した.逐次追加を行う場所の判別に関数値f(u)(複雑度)を用いることで,効率の良いノードの追加が可能であることを示した.

以上により,提案する関数近似手法が強化学習にとって有効であることを確認した.

図1:複雑度の定義

図2:複雑度の均一化

図3:ノード移動後

図4:ノード移動後の分布

表1:各学習例題での報酬積算値の比較

審査要旨 要旨を表示する

 小林 祐一(こばやし ゆういち)提出の本論文は「強化学習のための自律分散型関数近似法」と題し,全6章よりなり,強化学習において問題に適した分解能の自律的な獲得の可能な,自律分散型のアルゴリズムに基づく関数近似法を提案している.

 第1章では,研究の背景を説明し,研究の目的と論文の構成を述べている.強化学習の核をなす価値関数の近似において,学習にとって重要な領域のみに高い分解能を持つような表現,すなわち適応的な分解能を獲得する関数近似手法が重要な意味を持っている.適応的な分解能を自律的に獲得するための関連研究として,関数近似手法における逐次的な基底関数の追加方法や状態空間の自律的な分割手法などをあげることができるが,人手による調整が必要な設計要素が多いという問題が存在する.それに対し,本研究では自律的な情報表現獲得を目指し,設計自由度を低減した適応的分解能獲得型の関数近似手法を提案する.系(関数近似器)全体の秩序との関係を記述した形での局所的な関数近似要素の挙動を設計する手法としてグラフ上の反応拡散方程式を用いた自律分散型の関数近似法を提案した.

 第2章では,強化学習の基本的なアルゴリズムを説明し,強化学習の核である価値関数近似への要求とそれに基づく関連研究の分類を行い,本研究の強化学習研究における位置付けを述べている.非定常関数近似,必要データの制約などの要求から,分解能を獲得する価値関数近似は既存の関数近似手法では容易ではない.特に,ガウス基底関数の重ねあわせで連続値関数を表現する代表的関連研究では,基底追加判別のためのしきい値や基底形状などに関して試行錯誤による設計を要するという問題が存在する.これに対し,本研究の提案関数近似法は,近似誤差でなく近似関数の形状に着目した統一的尺度(複雑度)を用いた関数近似要素(ノード)の再配置を行うため,設計自由度を低減することができる.また,自律分散型の手法であることから,ノードの動的な追加や削除が容易であるという利点も有している.

 第3章では,本研究で提案する関数近似法のアルゴリズムを述べている.ノードによる超平面の組み合わせによって関数近似面を構成し,勾配変化の大きい領域にノードを密に,小さい領域に疎に分布するように挙動を設計する.そのための設計方法としてグラフ上の反応拡散方程式を用いた.各ノードの局所近傍における近似関数の複雑度を勾配変化に基づいて定義する.複雑度をノード上関数とし,これを均一にするようなノードの挙動をグラフ上の反応拡散方程式に基づいて設計した.ノードの挙動は,系全体の状態を表すポテンシャル汎関数を極小値に導く勾配法によって設計される.ノード間のアークを構成する方法として,ユークリッドノルムに基づいた近傍を構成するTRN(Topology Representing Networks)アルゴリズムを用いた.

 第4章では,提案関数近似手法の強化学習への適用法および適用時の適性と問題について述べている.提案近似手法の強化学習への適用方法として,Value Gradient法およびQ-learning法の状態価値関数および行動価値関数の近似を行う方法を示した.Value Gradient法では,状態価値関数をTD誤差学習により推定し,行動決定は近似した状態価値関数の勾配情報を用いて行う.ノードの逐次的追加には,複雑度を用いる.複雑度最大のノードの近傍に新規ノードを生成させ,提案アルゴリズムにしたがって移動を行う.

 第5章では,提案する関数近似手法の性質の検証および強化学習例題を用いた性能向上の確認を行っている.定常関数近似問題においては,ノード移動を適応的に行うことにより近似誤差を低減できることを確認した.また,複雑度を表す関数値の大きい領域に逐次的にノードを追加していく方法が複雑な形状の関数を近似する上で有効に機能することを確認した.強化学習への適用の評価に関しては,入力空間に格子状にノードを固定したままの場合と,ノード移動や逐次的なノード追加を行った場合との比較を行った.強化学習例題には水たまり問題と1自由度振子振り上げ問題を用い,各場合において,ノードの移動および逐次的追加による学習効率の変化を検証した.その結果,ノード移動により,学習効率が改善できることを示した.この改善の割合は水たまり問題よりも問題設定を変更した2次元環境探索問題においてより顕著に表れた.このことから,ノード移動による適応的な分解能の変更が強化学習において有効であること,および勾配変化の表現効率が報酬値に影響を与えやすい問題ほどノード移動の効果が高くなることが確認された.また,ノードの逐次追加によって,学習効率が改善できることを示した.逐次追加を行う場所の判別に複雑度を用いることで,効率の良いノードの追加が可能であることが確認された.

 第6章では,結論を述べている.本論文において提案した適応的な分解能獲得型の関数近似法が,適切な関数近似によって強化学習における学習性能を向上させられることが,強化学習の標準問題を用いたシミュレーション実験によって示された.

 以上を要約するに,本研究により,複雑な領域に密に分布するようにノードを移動させるという考え方が自律分散型のアルゴリズムに基づいて提案され,強化学習における情報表現方法として重要な意味を持つ分解能適応型関数近似法が確立された.このことにより,精密機械工学のみならず工学全体の発展に寄与するところが大である.

 よって本論文は博士(工学)学位請求論文として合格と認められる.

UTokyo Repositoryリンク