学位論文要旨



No 119821
著者(漢字) 杉田,祐也
著者(英字)
著者(カナ) スギタ,ユウヤ
標題(和) ロボットの行動経験に基づく組み合わせ的な意味表現の学習モデル
標題(洋) A Dynamical Systems Approach for Learning Situated Combinatorial Semantics
報告番号 119821
報告番号 甲19821
学位授与日 2005.03.10
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第544号
研究科 総合文化研究科
専攻 広域科学専攻
論文審査委員 主査: 東京大学 助教授 池上,高志
 東京大学 教授 嶋田,正和
 東京大学 助教授 植田,一博
 東京大学 助教授 多賀,巌太郎
 理化学研究所 チームリーダ 谷,淳
内容要旨 要旨を表示する

1.導入

 人間の認知的能力の複雑さの説明に、要素概念の組み合わせ、という考え方を欠かすことができない。たとえば、文の意味が単語の意味の組み合わせとして理解できるとする「意味の合成性の原理」という考え方がある。これによって、無限個の異なる文章を理解・生成する人間の認知的能力は、有限個の要素の無限通りの組み合わせとして理解できる。

 本論文は、組み合わせ的な心的表示を実世界の対象に接地させることが、Harnadが提唱する記号接地問題よりも本質的に困難な問題であることを指摘する。つまり、記号と実世界の対象の対応関係を獲得できたとしても、記号の組み合わせと実世界の対象の組み合わせの対応関係を自動的に獲得できない。たとえば、「赤いブロック」という言葉に対応する対象を、「赤い」と「ブロック」のそれぞれに対応する対象の組み合わせとして合成し理解するシステムを構成することは、見かけほど単純ではない。従来のモデルは、「『赤い』は《物体》の《色》である」、「『ブロック』は《物体》であり属性として《色》をもつ」といった明示的な組み合わせのルールを用いる。したがって、《色》や《対象》といった要素概念を設計者が与え、それらがタスクに接地した意味をもつことを設計者が保証しなくてはならない。そのために、実世界の対象を要素に分解するアプリオリな手続きなど、様々なプログラミングが要求される。このように、意味要素への還元に基づいたモデルでは、多くのタスク依存の概念やそれらの組み合わせ方についての手作業による実装を必要とする。また、認知言語学における意味の合成性についての議論に代表される、単語と文の意味の関係についての認知的な解釈の困難をそのまま受け継ぐことにもなる。

 具体的には、力学系人工神経回路網の示す汎化能力を利用したタスクに接地した組み合わせ的な心的表示を学習するモデルを提案し、これらの問題の新しい解決法を議論する。このモデルを用いてロボットが単純な文と行動パターンの対応関係を学習する実験を行なった。その結果、ロボットがいくつかの文と行動パターンの対応関係を学習することで、文法や品詞、意味要素に関する知識を一切外部から与えずに、未知の文を類推的に理解し正しい行動パターンを生成することができた。このときにモデルに自己組織化された構造を解析した結果から、組み合わせ的な汎化を実現する力学的な構造について議論する。また、組み合わせ論的な複雑さをシンボルの組み合わせに還元せずに、アナログ的なシステムの示すの汎化能力として捉える方法論について検討する。

2.実験タスク

 実験タスクは学習フェーズとテストラェーズから成る。学習フェーズにおいて、ロボットが動詞と名詞から成る2単語文と、環境中に置かれた物体を操作する行動パターンとの対応を教示データから学習する(図1,2)。言語セットは、あらかじめ定義された3つの動詞と6つの名詞の組み合わせからなる18種類の文を含む。9種類の行動カテゴリの教示は、実験者がジョイスティックでロボットを操作して作成した行動に伴うセンサモータ情報の時系列を用いて行なった。ロバストな行動学習をするために、各カテゴリについて10種類の異なる行動パターンを作成した。文は単語の長さ3の時系列(文の開始シンボルを含む)、行動はセンサモータイメージの長さ15から90程度の時系列として与えた。このうち14の文章について行動パターンとの対応関係を学習した後に、残りの4つの文から対応する行動を生成できることをテストした。

3.学習モデル

 学習モデルは、2つのパラメタバイアスノード付き再起型神経回路網(RNNPB)と呼ばれる人工神経回路網から成る。それぞれの回路網が言語モジュールと行動モジュールとして動作し、相互作用しながら文と行動パターンの汎化的な連合学習をする。谷らによって提案されたRNNPBのアーキテクチャは、ジョルダン型の再起型神経回路網(RNN)の入力層にパラメタバイアス(PB)ノードと呼ばれる回路網のダイナミクスを変化させるためのノードを付加したものである(図3の各モジュール)。PBノードの値は通常のノードの値と異なり、時系列の生成の最初に固定値が与えられ、その後、変化しない。時系列の生成の最初に与えるPBノードの値を変えることで生成する時系列をコントロールできることを利用して、時系列と時間的に変化しないPBノードの値との対応関係を学習することができる。

 2つのRNNPBは、PBノードを通じて相互作用しながら同時に学習する。言語モジュールは与えられた複数の文の学習を通じて、各文に対応するPBノードの値を自己組織化学習する。同時に、行動モジュールも教示データに含まれる各センサモータ時系列に対応するPBノードの値を自己組織化する。それぞれの学習と並行して、対応する文とセンサモータ時系列の各PB値がなるべく等しい値となるように互いのPB値を近づけ合うことで、対応関係を学習する。学習後に、文を認識し行動を生成する場合には、まず、言語モジュールが与えられた文に対応するPB値を計算する。この逆計算は、学習後の言語モジュールのネットワークが、与えられた文をもっとも小さい誤差で再現することができるPB値を求める最適化計算として実現できる。この文をエンコードしているPB値を行動モジュールに与えることで、ロボットが文に対応する行動を生成できる。

4.言語と行動の共有構造の自己組織化学習

 学習の結果、言語モジュールが教示データに含まれている文だけでなく、未学習の文も認識できた。言い換えると、未学習の文を生成することができるPB値が存在するということである。さらに、このPB値を行動モジュールに与えることによって、対応関係を学習していないにも関わらず、ロボットが対応する行動を生成できた。つまり、文と行動の関係の汎化が実現できた。

 この汎化が両モジュールそれぞれのPB値の空間に自己組織化された共通の構造によって実現されていることが解析によって明らかになった(図4)。ここで重要なのは、学習時に課された制約条件は、対応する個々の文と行動パターンのペアについての制約であったのにも関わらず、制約が存在しなかった未学習の文についても対応関係が獲得できたことである。したがって、個々のペアのPB値間の相互作用から、PB空間の構造全体に渡る相互作用が発生したといえる。

 この個々の対応の制約が全体的な対応の組織化に至る過程には、各モジュール内での教示データの汎化的な学習が関与している。各モジュールは、単に文や行動パターンの時系列を暗記的に学習するのではなく、複数の文の間の関係や、複数の行動パターンの間の関係をPB空間の構造として自己組織化しながら、汎化的な学習をする。言語モジュールは文法構造を反映した内部構造を獲得し、また、行動モジュールは行動パターンの類似性に基づいたカテゴリ的な内部構造を獲得する。この各モジュール内の構造を保持しようとする傾向によって、個々の文と行動パターンの間の制約によって生じるPB値の変化が構造全体に波及する。

5.まとめ

 これらの結果から、我々のモデルにおいて、単語の意味が単独で存在しておらず、それを含む全ての文の意味に依存していると結論できる。また、単語と組み合わせ規則のそれぞれの文の意味への寄与を分離する境界がはっきりしない場合でも、組み合わせ論的な文の理解が可能であることを示した。我々の実験は、追加学習のない2単語の文だけの非常に限られた系で行われているが、必要最低限の組み合わせ的な構造について、全体論的な実現法と解釈を、実験の結果から具体的に示している点で、意味の合成性の原理に関する問題を含む様々な認知現象の理解を深めるのに有効であると考えられる。今後の課題として、より大きな言語セットを用いた実験だけでなく、認知科学の記号的な説明的概念と、力学系モデルが示すダイナミクスのもつ性質の関係について議論を深めていきたい。特に、単語の意味を汎化に付随した仮想的なものと見なす我々の解釈と、カテゴリ化によって得られた概念と見なす認知言語学の解釈の関係について考察する必要がある。

図1:教示する文と行動パターンの関係。4つの文(下線)を教示データから外す。

図2:モバイルロボット(a)が、3つの色付き物体が配置された環境で固定の初期位置(b)から、各物体に対し3種類の異:なる動作をする(c-e)。

図3:提案する学習モデルは2つRNNPBから成り、それらがPBノードを介して双方向に結合している。PBノードは自己ループを持ち、時系列の生成の最初にこのノードに与えられた値が生成終了まで保持される。

図4:言語(a)、行動(b)の各モジュールの6次元のPB空間を主成分解析を用いて2次元に射影した。未学習の文(下線付きの文)を含めた全ての文について、正しい行動パターンとの対応関係が学習できていることが確認できる。

審査要旨 要旨を表示する

 本論文はロボットの行動に基づいた文の学習のモデルを構成することを中心テーマとし、具体的には、力学系人工神経回路網モデルを用いた学習モデルを提案し、2単語文とロボットの行動パターンの対応関係の学習実験の結果としてモデルが獲得した意味表現の性質について論じたものである。意味表現が持つべき非常に広汎な性質のなかで、特に、文の意味がそれに含まれる語の意味の合成として理解できるとする「意味の合成性」について、文の意味を文と行動パターンの対応関係であるとする抽象化の下で論じている。

 本論文は4章からなる。第1章では、人工知能モデルや統計モデルを用いた従来研究について紹介し、それらの問題点について論じている。これらの従来モデルが共通に用いている記号接地問題のフレームワークが抱える問題点を明らかにし、その代替案として、学習モデルの汎化能力を記号の創発として捉える考え方を提示している。第1章後半から第2章にかけて、その実装として力学系人工神経回路網モデルを用いる方法論を検討している。

 本論文の中心である第3章では、学習モデルを提案し、学習実験の後に観察されたロボットの行動と、モデル内部に獲得された意味表現の構造の関係について議論している。 実験タスクは、動詞-名詞の2語から成る文と行動パターンの対応関係をロボットが学習した後に、ロボットが与えられた未知の文を認識し、適切な行動を生成できることをテストするものである。言語セットは、3語の動詞、6語の名詞の組み合わせの18種類の可能な文を含む。文は語の時系列として教示し、また、行動はロボットをジョイスティックで操作して実験者が生成した行動に伴うセンサモータ情報の時系列として教示した。また、文と行動の間の対応関係を部分的に教示している。

 提案された学習モデルは2つの相互作用するモジュールから成り、一方が文を、もう一方が行動パターンを学習する。各モジュールは谷によって提案されたパラメタバイアスノード付き再帰神経回路網によって実装されており、教示された各文、各行動パターンの内部表現を学習の過程で自己組織化する。文と行動の対応関係の学習は、対応する文と行動のそれぞれの内部表現を等しい値に収束させるモジュール間の制約として定式化されており、両モジュールがこの制約の下でそれぞれの教示データを同時に学習する。

 言語セットに含まれる可能な18の文のうち、14の文について対応関係を教示した学習実験の結果、ロボットは4つの未知の文を含む全ての文を認識し、正しい行動を生成できることが観察された。この対応の汎化が、学習によって獲得された各モジュール間で共有されている内部構造によって実現されていることが、学習後のモデルの解析によって示された。この文と行動全体に渡るグローバルな構造的結び付きが、学習時の制約による各文と各行動のローカルな結び付けによって獲得できたことは興味深い。また、行動パターンとして与えられた文の意味を語の意味にあらかじめ文節化しなくても、組み合わせ的な意味表現の獲得を実現できたことから、このタスクにおいて、複数の文の意味の関係性から語の意味が創発できたことが示唆される。このような語の意味の全体論的解釈について、ロボットを用いた実験結果に基づいた具体的な議論がなされている点は、本研究に独自であると言える。

 第4章では、第3章の結果を簡潔にまとめ、また今後のロボットが行なうタスクに基づいた言語学習研究において、今後に達成するべき課題について検討している。

 以上のように、論文提出者の研究結果においては、単に文と行動の結びつけが表面的に学習されるのではなく、経験した文および行動の束の相互の関係性から、意味の空間が物理世界に接地した形で構造をもって自己組織化されるという点が、非常に興味深い。将来の一つの方向として、如何により複雑な文および行動について発達的に学習されうるか、人間の場合と比較しながら研究することは重要であろう。その時、本研究は高次脳機能発達研究、言語発達研究などより広い研究範囲にインパクトを与えるであろうことが期待される。

 したがって、本審査委員会は博士(学術)の学位を授与するにふさわしいものと認定する。

UTokyo Repositoryリンク