学位論文要旨



No 114227
著者(漢字) 矢入,健久
著者(英字)
著者(カナ) ヤイリ,タケヒサ
標題(和) 自律エージェントの行動獲得における状態と行為の抽象化に関する研究
標題(洋)
報告番号 114227
報告番号 甲14227
学位授与日 1999.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4353号
研究科 工学系研究科
専攻 航空宇宙工学専攻
論文審査委員 主査: 東京大学 教授 堀,浩一
 東京大学 教授 佐藤,知正
 東京大学 教授 鈴木,真二
 東京大学 助教授 中須賀,真一
 東京大学 助教授 伊庭,斉志
内容要旨

 近年,知能ロボットなどの知的自律システムの実現を目指す分野では,「行動に基づく知能」あるいは「環境との密な相互作用」などと呼ばれる基本原理に基づいたアプローチが盛んに研究されるようになってきた.この方法論の本質は,自律システムの「知的さ」をそれらの行動主体(エージェントと呼ばれる)と外部環境との間の密接な相互作用に求めるという考えである.

 この分野における今日の主要テーマとして,エージェントが環境との相互関係からいかにして適切な行動則を獲得するかという「行動学習問題」が挙げられ,これまでに様々な機械学習理論に基づく具体的な手法やシステムが提案されている.そして,そのほとんどは,人間の手によってあらかじめ離散化された状態集合と行為集合との間の適切なマッピングルール(もし状態がSならば行為Aを実行すべきだ,というような行動則)を,何らかの評価基準と行動経験に基づいて獲得するという問題に帰着して扱っている.

 しかし,ロボットのような実環境エージェントの場合,実際の環境とのインタラクションは,プリミティブで連続的,かつ多次元のセンサー入力およびモーター出力を介して行われるので,そのような抽象的な状態空間,行為空間を人間があらかじめ定義することは困難である.しかも,そのような人間のヒューリスティクスによって天下り的に抽象化された状態集合,行為集合を用いてエージェントが実環境における行動決定や学習を行った場合,記号的世界モデルに基づく古典的人工知能と同様,シンボルグラウンディング問題やフレーム問題という難問に正面からぶつかることを免れ得ない.

 このような背景から本論文では,エージェント自身がその身体性やタスク,環境の性格にとって適切な状態空間や行為空間をプリミティブなセンサー情報,モーター出力から抽象化(離散化)するにはどうすべきかという問題,すなわち状態・行為の自律的抽象化問題を扱う.この状態・行為の抽象化問題は,ここ数年その重要性がにわかに注目されるようになり,実際いくつかの具体的アプローチが先行研究によって提案され,一定の成果が報告されている.しかし,これらの従来研究は,それぞれごく限定された問題に対してアド・ホックな具体的手法を提案し適用しているにすぎず,状態・行為の抽象化問題に対する一般的かつ体系的な解決法が完成されるには,まだ多くの本質的難問が残されている.

 本研究では,このような自律エージェントの状態・行為抽象化問題における重要な未解決問題のうち,以下に挙げる2つのテーマに焦点を当て,その一般的な問題枠組の定義と解決法を提案する.

 ・異種冗長なセンサー入力の一般化と状態クラスの表現法に関する問題

 ・状態および行為の抽象化基準に関する問題

 まず前者は,エージェントが環境から得るプリミティブなセンサー入力信号を,実際にどのような方法によって一般化し,状態クラスとして表現するかという問題である.従来の諸研究ではこの問題に関して,決定木,線形判別関数,マハラノビス超楕円体,最近傍法などによる状態の一般化・表現法が提案されているが,それらでは専ら,「領域をいかに精密に分割するか」,「いかに少ない分割数ですむか」という2つの項目に主眼が置かれている.しかし,実環境で柔軟かつ知的に振舞う自律エージェントを実現しようとする立場からは,センサー情報が必然的に含む不確定性要素に対して,それらの状態一般化,表現法がどれほど頑強であり得るかということの方が,より重要である.また,そのように頑強な状態一般化・表現を行うためには,多種多様で冗長なセンサー情報をいかに効果的に統合するか,ということが鍵になるが,従来手法ではいずれもこれらの点に関する十分な考慮が行われていない.

 そこで本研究では,この問題へのアプローチとして,単純ベイズ分類器に基づく状態一般化・表現法を提案する.この手法では,エージェントの行動経験データから統計的に推定された各センサー入力ごとの対数尤度の分布関数によって各状態の一般化と表現が行われ,新しいセンサー入力ベクトルの状態クラスへの分類は,各センサー入力ごとに分散的に計算された対数尤度の和によって決定される.この方法は,従来の手法に比べて以下のような長所を有している.

 ・各種センサーから得られる異種冗長な情報を,その入力信号の連続/離散性や確率分布の型などの性格に関係なく,柔軟かつ効率的に統合しつつ,状態の一般化と表現を行うことが可能である.

 ・またその結果として,従来の状態一般化・表現手法と比較して,センサーノイズや故障(フォールト)など,実環境にとって不可避な不確定性要因に対する頑強性が大きく改善される.

 一方,後者のテーマは,「エージェントの状態や行為を,何に基づいて,すなわち,どのようなポリシーで抽象化するべきか」という問題である.これはより詳細には,「エージェントが観測するセンサー入力,および実行するモーター出力について,どのような基準に従ってその近い・遠いの尺度を決め,同じ状態あるいは同じ行為として分類,一般化を行うか」という問題として定義することができる.この問題に対して,従来研究では一般に,行為の集合をあらかじめ人間が定義した上で,「同じ行為によって同じ結果が得られるセンサー入力を同じ状態とみなす」か,センサー入力空間における距離尺度を事前に仮定した上で,「近いセンサー入力において同じ結果をもたらすモーター出力ベクトルを同じ行為とみなす」というヒューリスティクスを適用することによって,どちらか一方のみを抽象化していた.しかも,これらのヒューリスティクスにおいて,何を「同じ結果」とみなすかはそれぞれの研究によってまちまちであるうえ,その違いが本質的にどのような意味を持つのかは全く議論されていない.

 これに対し本研究では,ゴール状態やサブゴールへの到達,報酬の獲得,センサー入力の変化など,エージェントの行為結果を表す複数の属性に関する「ばらつき」(各結果属性に関する情報エントロピーの重み和によって定義される)を考え,これを最小化するような状態集合,行為集合を探索する過程として抽象化問題を定式化し,この枠組に基づいた状態・行為抽象化法を提案する.この新たな手法的枠組は,従来研究において思い付き的に用いられていた様々な抽象化基準に統一化された視点を与えるとともに,以下に挙げる4つの効果をもたらす.

 ・ゴール・サブゴール状態への到達,報酬の獲得,センサー入力変化など,複数の異なる行動結果属性の類似性に基づいた状態および行為の抽象化が可能である.

 ・従来,別々に扱われていた状態の抽象化と行為の抽象化が,「行為結果のばらつき最小化」という一つの枠組の上で統合される.

 ・提案した状態・行為抽象化法と,従来の行動政策獲得法とを交互に繰り返し適用することによって,エージェントの状態・行為空間の性格がデータ駆動型から,リスク回避型,ゴール指向型へと順次変化していき,エージェントの行動性能が改善される.

 ・エージェントの状態集合や行為集合を完全に0から構成する手段としてだけでなく、人間が初期値として与えた状態集合や行為集合を漸次的に再構成していくことによって,学習コスト面の上で大きな改善を図る方法を提供する.

 本論文の後半では,状態・行為の抽象化問題におけるこれら2つのテーマに対する本研究の提案手法の有効性を検証するために,自律移動ロボットの目標物追従タスクを想定したシミュレーション実験の結果を二部にわけて示した.

 まず第一の実験では,接触センサー,ソナー,画像センサーなど異種冗長なセンサー入力が得られるという状況下で,提案した「単純ベイズ分類器に基づく状態一般化・表現法」が,外部環境の不確定性,すなわちセンサーノイズや故障などに対してどのような性格を持つかを調べた.その結果,この提案手法が,異種冗長センサー入力を効率的に統合し,これらの不確定性に対して従来の手法に比べて高い頑強性を持つことが示された.

 一方,第二の実験では,「行為結果のばらつき最小化に基づく状態・行為抽象化」の検証を行った。この結果,

 ・複数の行為結果属性の類似性を抽象化基準に含め,強化学習による従来の行動政策獲得と組み合わせることによって,前述のように抽象化の性格が理想的に変化していくこと.

 ・状態空間と行為空間の両方を自律的に抽象化することによって,どちらか一方を単独で行う場合と比較してエージェントの行動パフォーマンスが大きく改善されること.

 ・人間が暫定的に与えた状態・行為空間を初期値とし,これを再構成していくことによって学習に要するコストが大きく軽減されること.

 などが示された.

 また,これらの結果を踏まえ,本論文の最後では,状態・行為の抽象化と行動学習の完全なオンライン化,記号的プランニングシステムとの統合など,今後この研究が進むべき方向について議論している.

審査要旨

 修士(工学)矢入健久提出の論文は、「自律エージェントの行動獲得における状態と行為の抽象化に関する研究」と題し、9章からなる。

 惑星探査ローバーや宇宙用知能ロボットシステムを代表とする自律エージェントにおいては、未知の状況や故障に対処するために、状態や行動をシステム自らが学習することが望まれており、従来、さまざまな学習方法の研究がなされてきた。しかし、従来のほとんどの研究においては、状態や行動を表現するための基本要素が設計者によってあらかじめ定められており、システムが学習するのはそれらの要素の組合せだけであった。そのため、設計者があらかじめ与えた基本要素では表現できない未知状態やシステムの故障に対処することができなかった。これに対して、本論文では、自律エージェントの持つセンサ系とアクチュエータ系の情報そのものから、状態と行動を学習していく新しい方法を提案し、その有効性を検証する実験を行っている。

 第1章は序論であり、本研究の背景、位置付け、および目的を述べている。

 第2章では、自律エージェントに関する従来の研究の概略をまとめ、それらが抱えている問題点を明らかにしている。まず、モデルおよびプランニングに基づく自律エージェントと反射的自律エージェントの設計思想を整理し、次にそれらに共通する課題として、状態と行動の獲得に関する問題が残っていることを示している。

 第3章では、状態と行動の獲得に関して従来行われてきた研究を綿密に比較検討し、従来の方法の問題点を明らかにしている。マハラノビス楕円体を用いる状態一般化法、線形判別関数を用いる状態一般化法、最小近傍法を用いる状態一般化法等のいずれもが、多種の冗長なセンサー入力を統合・抽象化するのに不十分で、また不確定性要因に対してロバストな状態表現を与えることができないことを示している。

 第4章では、3章で明らかにした問題点を解決するための方法として、ベイズ分類器に基づく異種冗長センサー情報からの状態一般化・表現法を提案している。これは、センサー情報と行動と結果の組に関する確率的データから、状態の一般化を行うという方法であるが、一般化を制御するための規準等について著者独自の提案がなされており、従来の研究よりも優れた結果が得られることが示されている。

 第5章では、行為結果のばらつき最小化に基づく状態と行為の抽象化法を提案している。従来の研究においては、状態の分類を行うために行為の組があらかじめ与えられるか、あるいは行為の分類を行うために状態の組があらかじめ与えられていた。そのいずれにしても、設計者があらかじめ想定した状態と行為の表現の枠の中でしかシステムは学習を行うことができなかった。これに対して、本章の提案は、行為結果のばらつきを最小化するという一般的な規準だけで状態と行為の両方の学習を同時に行う枠組を与えるものであり、従来のすべての研究を包括して議論することのできる新しい理論的枠組となっている。さらに、この枠組の中で、行為獲得に関する新しい方法の提案を行っている。この行為獲得の方法と4章で提案した状態一般化の方法とが対をなして、自律エージェントの新しい枠組を構成することになる。

 第6章では、4章で提案した手法の有効性を検証するための実験を行っている。4種類の異種冗長センサーを有する移動ロボットにおいて、状態の獲得の実験を行っている。その結果、従来手法と異なり、一部のセンサーに故障が生じても状態を正しく表現し認識できることが示されている。

 第7章では、5章で提案した手法の有効性を検証するための実験を行っている。従来のシステムでは不可能であった状態と行為の同時抽象化を正しく行えることが、移動ロボットによる実験で示されている。

 第8章では、4章と5章における提案および6章と7章での実験結果を総合的に議論し、本研究の貢献を明らかにしている。

 第9章は、結論であり、本研究の成果をまとめ今後の課題を示している。

 以上を要するに、本論文は、自律エージェントが状態と行動を同時に獲得するための新しい方式を提案し、実験によりその有効性を確認したものであり、工学上寄与するところが大きい。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/54065