学位論文要旨



No 112967
著者(漢字) 上野,敦志
著者(英字)
著者(カナ) ウエノ,アツシ
標題(和) 自律システムのための状況認識と行動規則の同時学習
標題(洋)
報告番号 112967
報告番号 甲12967
学位授与日 1997.09.18
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3959号
研究科 工学系研究科
専攻 航空宇宙工学専攻
論文審査委員 主査: 東京大学 助教授 堀,浩一
 東京大学 教授 河内,啓二
 東京大学 教授 鈴木,真二
 東京大学 助教授 中須賀,真一
 東京大学 助教授 桐山,孝司
内容要旨

 実世界中で,あるタスクを自律的に実行する認知行動システム(エージェント)を考える.エージェントは各瞬間に,センサからの知覚入力に基づいて,自らの行動を決定する.知覚入力には,通常,多様な情報が含まれていて,あまり重要でない情報もたくさん含まれている.エージェントの能力は実世界中の情報を全て扱うにはあまりにも限定されているので,情報処理の早い段階で不必要な情報を捨て去って必要な情報だけを抽出する処理が必要である.これは,抽象化と呼ばれる処理である.抽象化の利点としては,情報の圧縮や経験の一般化などが挙げられる.

 しかし,システムとタスクにとって適切な抽象化の方法を定めるのは,非常に困難である.そして,抽象化が不適切であると,様々な問題が生じる.抽象化のレベルが低過ぎると,システムが不必要な情報を処理するための余分なコストが生じる.また逆に,抽象化のレベルが高過ぎたり,知覚入力の誤った特徴に注目してしまうと,タスクの実行のために必要な情報が抜け落ちて,タスクの遂行に度々失敗する.これらの問題は,限定された情報処理能力しかないシステムがその能力をはるかに上回る複雑性を持つ情報を扱おうとすることによって起こる問題であり,フレーム問題と呼ばれている.

 人間もまた,環境の複雑性に比べれば,限られた情報処理能力しか持たないので,フレーム問題を解決することはできない.しかし,日常生活においては,フレーム問題にほとんど悩まされずに行動している.それは,日常的に環境中の膨大な情報のごく一部だけに注目する習慣を身につけているからである.また,フレーム問題によって判断を誤った場合にも,その誤りによる被害を最小限に抑える術を心得ているからである.これは,「フレーム問題の現実的な解決」と呼ばれている.人工的な認知行動システムにも,人間の持つ次の三つの機能を持たせることによって,フレーム問題の現実的な解決に近付けることができると考えられる.

 1.環境を頻繁に参照する.

 2.情報処理を並列化する.

 3.膨大な情報の中から注目すべき情報を取り出す方法を学習する.

 1,2の機能によって,システムは不慣れな環境でも,大きく破綻することなく行動することができる.そして3の機能によって,不慣れな環境に徐々に慣れていくことができる.本研究では,この3の機能に注目して,「抽象化の学習」(または「認識の学習」)を行うシステムを開発した.

 抽象化の学習は,抽象化された表象の上での情報処理よりも,かなり大きなタイムスケールで行われるものである.そのため,従来のほとんどの人工知能システムでは,記号化などの抽象化のプロセスは固定してしまって,その上での情報処理を扱ってきた.その方が効率的であり,うまく記号体系を設計すれば,十分に実用的なシステムになるからである.しかし,実世界中の認知行動システムの場合には,環境の複雑性のために,この設計が非常に困難になる.また,真に自律性が求められているのは,惑星探査ローバーなどの人間の助力が困難なタスクにおいてである.そのようなタスクにおいては,通信が困難であるために自律性が必要とされ,さらに環境の事前の調査が難しいこと,故障した場合も修理できないことなどから,情報処理の大きな柔軟性が求められている.抽象化の学習という情報処理の低いレベルにおける学習をゆっくりと行いながら,同時に抽出された表象の上での学習を行うことによって,大きな柔軟性を持つことが期待できる.

 本研究で開発した状況遷移ネットワークシステム(Situation Transition Network System,STNS)では,抽象化として,連続的な知覚入力から記号の抽出を行う.抽象化の手段として記号化を選んだのは,記号表現には強力な情報処理手法が存在するからである.また,将来的に他者と知識を共有することを考えても,記号表現を用いるのは望ましい.STNSは,知覚入力空間中の特定の領域,つまり「状況」を切り出して,その「状況」に対して記号を割り当てる.すなわち「状況」に相当する記号の意味を学習する.

 このシステムが従来の認識の学習と大きく異なるのは,各状況の意味が,教師によって与えられるのではなく,行動の結果の類似性によって定義される点である.類似性の基準は環境から与えられる報酬とする.すなわち,一つには,ある特定の行動によって大きな報酬が得られる領域を状況として切り出す.また,もう一つには,ある特定の行動によって既存の状況に遷移する領域を状況として切り出す.このように行動の結果の類似性に注目することによって,エージェント自身の環境中での経験のみに基づいた記号の定義が可能になる.

 STNSにおいて,タスクを遂行する行動は,切り出された状況間でプランニングを行うことによって決定される.また,切り出された状況の形状は,その後のタスクを遂行する行動によって,常に調整され続ける.つまり,状況の形状が適切であれば行動はタスクを成功させるし,行動がタスクを成功させ続ければ状況の形状が適切に維持される.この状況と行動の相互依存関係によって,状況の形状が常にタスクにとって適切な抽象化を保つことが期待できる.

 STNSの特徴をまとめると次の三つになる.

 1. 環境からの報酬に基づいて,知覚入力空間中で状況を統計的手法を用いて切り出し,それを動的に維持する.(状況認識の学習)

 2. 状況間の遷移確率とその時得られる報酬を過去の経験から最尤推定してワールドモデルを構築し,その上で部分的プランニングを行って行動を決定する.(行動規則の学習)

 3. これらの二つの学習を,環境中でタスクを実行しながら同時に行う.

 STNSの性能を調べるために五つの実験を行った.いずれもコンピュータシミュレーションである.2次元入力の簡単なナビゲーション問題では,STNSが,簡単な問題において,理想的な状況認識と行動規則を獲得できることが確かめられた.また,データが不十分な段階でも状況を切り出すことによって,学習が非常に速く進むことが確かめられた.アクチュエータが故障したローバーを用いた2次元入力のナビゲーション問題では,STNSが,超楕円体から離れた形状を持つ状況の認識,小さい状況の認識,他の状況に覆われた状況の認識などの点で弱点を持つことが確かめられた.しかし,問題を徐々に複雑にしていった時の性能の悪化は緩やかであることが確かめられた.2次元入力のナビゲーションの二つの柔軟性テストでは,STNSが,簡単な問題において,環境の小さな変化に柔軟に適応でき,大きな変化にもほぼ安定して対応できることが確かめられた.8次元入力の複雑なナビゲーション問題では,報酬に近い領域では,ある程度の状況認識と行動規則を獲得することができた.しかし,報酬から離れた領域では,状況認識が不十分であるために,適切な行動規則を獲得することができなかった.その原因は,主に,状況の形状を学習する能力の低さであると思われる.ただし,強化学習で最も一般的な入力空間をグリッドで分割する状態表現と比較すると,STNSにおける状況表現は抽象度が高く,柔軟性においても優れていると考察された.

 STNSを実用的なタスクに用いるためには,状況学習能力の低さを補う仕組みが必要である.そのためのアプローチとしては,「階層化」と「属性の生成」の二つが考えられる.「階層化」では,大まかに認識して戦略を決定してからその戦略内で細やかに認識して行動を決定することによって,各レベルの状況の形状を簡単にすることができる.「属性の生成」を用いるアプローチでは,知覚入力空間上ではうまくまとまっていない領域を切り出すために,その領域がうまくまとまるような属性空間を生成して,知覚入力をその空間上にマッピングする.どちらも個々の状況の形状を簡単にすることによって,乏しい状況学習能力で複雑な状況表現を獲得する可能性を高めることができる.

 環境と密接に関わりを持つ記号とは,STNSにおける状況のように環境中での経験に基づいて柔軟に定義されるものだと考えられる.しかし,この「状況」という記号は,まだ非常に初歩的なものである.このように経験に基づいて抽出される記号が,記号処理システム中で用いられるような複雑な記号となるためには,知識の構造化と再利用,物の認識,知覚と行動の時間的な抽象化などを考慮にいれてシステムを拡張していく必要がある.

 また,STNSでは,上述のフレーム問題を現実的に解決するための三つの機能のうち,3の適切な認識を学習する機能しか扱っていない.フレーム問題に悩まされない環境に根付いたシステムとするためには,1の環境を頻繁に参照する機能と,2の情報処理を並列化する機能も合わせ持つように拡張していく必要がある.

 本研究で開発したSTNSでは,認識の学習と認識された表象の上での強化学習を並例して実行することによって,従来の強化学習システムよりも柔軟な状態表現を実現している.その結果,与えられたタスクに特化しつつ,不慣れな環境に柔軟に適応できる認知行動システムを構成することができた.このシステムは,記号の学習としては知覚入力空間の分割,記号を用いた情報処理としては強化学習しか行わないし,アプリオリな知識はほとんど何も与えることができないので,認知行動システムとしては非常に初歩的なものである.しかし,認知行動システムによる認識の学習は,まだ始まったばかりの研究領域であり,もっと強力な記号体系,もっと複雑な情報処理,そしてアプリオリな知識の融合を目指してこの種の研究を発展させていくことは,実世界中の知能ロボットを実現する上で非常に有用であると思われる.

審査要旨

 修士(工学)上野敦志提出の論文は、「自律システムのための状況認識と行動規則の同時学習」と題し、8章からなる。

 惑星探査ローバーをはじめとする宇宙用知能ロボットシステムにおいては、すべての動作を地上から逐次指令することに困難が伴うため、システム自らが自律的に状況を認識し行動を制御することが望まれている。従来、人工知能の分野において、学習を行うシステムのさまざまな研究がなされてきたが、それらは、あらかじめ定められた記号体系の中での学習にとどまっており、あるひとつの記号体系が想定していない状況には対処することができなかった。本論文は、状況から記号の体系を作る段階をも学習の対象範囲に含めたシステムを提案するものである。状況の分節を行うための情報として行動の成否に関する情報を用い、状況認識と行動規則の学習を同時に行うという方式を考案している。

 第1章は序論であり、本研究の背景、位置付け、および目的を述べている。

 第2章では、知能ロボットに関する従来研究を概観し、人工知能の研究領域においてフレーム問題と呼ばれる記号処理に関する基本問題が、未知状況に対処する知能ロボットの実現を妨げていることを説明している。フレーム問題とは、記号により記述すべき事柄と記述しなくてもよい事柄を原理的にはあらかじめ定めることができないという問題であるが、それを回避するための現実的方法の考察がなされている。環境を頻繁に参照する、情報処理を並列化する、膨大な情報の中から注目すべき情報を取り出す方法を学習する、という3つの方法を考え、本論文においては、その中の第3の方法を追究することを述べている。

 第3章では、まず認識の学習に関する従来の研究を概観し、次に本研究における学習の基本方針を示している。従来は、学習に必要とされる基本的な情報をあらかじめ教師が与えていたのに対して、本研究においては、知能ロボットの行動の結果に基づいて、認識の学習を行う方式を提案している。

 第4章では、学習の具体的な方法として、強化学習のアルゴリズムを用いることを説明している。まず、従来から研究されてきた強化学習のアルゴリズムを説明し、次に本研究における拡張を示している。強化学習とは、環境から与えられる報酬に基づいて適切な行動パタンを強化していく学習方法であるが、状態表現の抽象化のレベルの設定が難しいという問題が指摘されている。本論文では、適切な抽象化のレベルを設定するために、入力の一般化の学習を行う方法を考えている。

 第5章では、前章までに提案した方法を統合したシステムとして、状況遷移ネットワークシステムと称するシステムを与えている。このシステムは、状況の意味をあらわす記号を、行動の結果の類似性により、自ら定義し学習していく。さらに、状況をあらわす記号と同時に、行動規則も学習する。状況間の遷移確率と各遷移で得られる報酬の期待値を最尤推定してワールドモデルを構成し、その上で部分的プランニングを行うことにより行動を決定する、という方法を与えている。部分的プランニングには、インターリーブプランニングと呼ばれる方法を用いている。

 第6章では、実験と評価を行っている。ローバーのナビゲーション問題について2次元入力の場合と8次元入力の場合を実験している。センサーの取り付け角度に誤りが生じた場合や車輪のすべりに誤差が生じた場合などの環境の変化に対して、システムが正しく状況認識と行動規則の変更を行うことを確認している。また、従来提案されてきた方式に比較して、本論文で提案した方式のほうが、環境変化への追随の柔軟性が大きいことが示されている。

 第7章では、本論文で提案した方式を実用化するために必要な技術等、今後の展望についてまとめている。状況表現と行動規則の階層化、および状況表現のための属性の生成について考察している。

 第8章は、結論であり、本研究の成果をまとめている。

 以上を要するに、本論文は、自律システムが状況認識と行動規則を同時に学習する方式を提案し、実験によりその有効性を確認したものであり、工学上寄与するところが大きい。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/53995