学位論文要旨



No 112346
著者(漢字) 中原,裕之
著者(英字) Nakahara,Hiroyuki
著者(カナ) ナカハラ,ヒロユキ
標題(和) 生物システムの逐次的意思決定 : 作業記憶の非線形ダイナミクスの役割と長期記憶での強化学習の役割
標題(洋) Sequential Decision Making in Biological Systems : The Role of Nonlinear Dynamical Phenomena in Working Memory and Reinforcement Learning in Long-Term Memory.
報告番号 112346
報告番号 甲12346
学位授与日 1997.03.28
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第103号
研究科 総合文化研究科
専攻
論文審査委員 主査: 東京大学 教授 永野,三郎
 東京大学 教授 玉井,哲雄
 東京大学 助教授 嶋田,正和
 東京大学 助教授 下條,信輔
 東京大学 助教授 池上,高志
内容要旨

 逐次的に行動を選択して目的を達成するのは、生物が備えている本質的な機能である。我々が、生物の逐次的行動選択を論じる時、次のようなプロセスを考えている。ある環境状態においてある行動を選択し、その選択された行動が環境状態を変化させ、その新たな環境において、次の行動を選択する。すなわち、このような状態の遷移系列の中で、生物はある目的の遂行、または目的とする環境の状態の実現、に成功または失敗する。生物システムのみならず、逐次的行動選択の本質的な問題は、ある時点の行動選択は、それによって引き起こされる直後の環境状態への遷移のみならず、それ以後の遷移にも影響を及ぼすことに起因する。即ち、ある時点での行動選択は、直後に実現した状態と同時により長い時間的スケールにおいて実現したい状態を共に考慮する必要がある。

 生物システムは、様々な特性(様々な時間的スケール・異なった種類の情報)の複数の記憶システムを持つ。例えば、人間では、短期(作業)記憶・長期記憶が挙げられる。一般的に記憶システムの基本的な機能的要素は、情報のロード・情報の貯蔵・情報の引きだし、である。長期記憶では、神経細胞の活性がロードと引き出しの時のみに必要であるのに対し、作業記憶では、この3要素全てについて必要である。そのため、長期記憶では記憶の保持が比較的容易であるのに対し、作業記憶では記憶の保持は短期的でありまた、その記憶は外乱によって失われやすい。さらに、この両者の特性の違いは、逐次的行動選択における両者の機能について、それぞれ異なった制約を与える。そのため、本研究では、それぞれの制約を鑑みて、逐次的行動選択がこの二つの異なった記憶システムでどのように実現されているかを個別に研究した。

逐次的行動選択のための作業記憶

 逐次的行動選択をダイナミックスの観点から、作業記憶における外界の情報の取捨選択に着目して研究した。

 生物個体は、その感覚器を通して様々な外界の情報を得つつ、行為を逐一選択していく。一方、外界の状態は刻々と変化する。そのような状況の中で、例えば食べ物の所在を示唆する情報を得ると、その情報を作業記憶に一時的に保持して、その食べ物を得るための、即ち目的達成のための逐次的に行動(系列)を行なう。ニューラルネットワークの枠組みでは、この"一時的な記憶"はユニットの活性値である。しかしながら、時にはその設定した目的の達成に失敗することもあるし、新たにより有望な情報が入ってくることもある。即ち、目的を達成するために、選択した情報(活性値のパターン)をある程度の間保持でき、かつ、検知された新たな情報(別の活性値のパターン)がより有望な時には、その二つの情報を混合せずに、素早くその情報を保持し、新たなゴールを設定する必要がある。即ち、「活性値のある一定期間の保持とすばやい活性値の移動」が、逐次的行動選択には重要になる。フィードフォワードネットワークは活性値を保持できないが、リカレントネットワークでは、活性値の保持が可能である。しかしながら、一般的に、線形微分方程式の解は指数関数の線形結合になるので、我々の提案したダイナミクスのを実現は難しい。それゆえ、シグモイド関数の非線形性を利用しつつ、できうるかぎり単純なリカレントネットで、我々の提案したダイナミクスが実現できるかを探ることにした。

 我々は、まず、自己結合とバイアスを持つ単一のシグモイド関数のダイナミクスを分析した。一般的に、自己結合とバイアスの値(以後、変数セット)に応じ、不動点の数とその挙動が変化する。変数セットを変化させて、不動点の数が3から1に変わる時、即ち、不動点の数が2の時に分岐が起き、その分岐点はサドルノードになる。我々が注目したのは、この分岐が起きた直後のダイナミクスである。このダイナミクスは、逐次的行動選択に重要な、活性値のある一定期間の保持とすばやい活性値の移動を満たす。実際のリカレントネットでは複数のユニット・複数の層があり、その挙動の分析は難しいが、我々の一つのユニット分析は、その挙動の直感的理解を助けることができる。実際には他のユニットからの入力は無視できないが、我々は、他のユニットからの入力からの可能な総和に制限を与えることにより、一層の自己結合とバイアスが一様の条件のもとで、我々の提唱するダイナミクスを得ることができると考えた。

 我々は、課題として、強化学習(reinforcement learning)や「人工生命」の研究で利用される「食べもの探索課題」を採用し、一層の中で自己結合とバイアスが一様の条件のもとで、そのダイナミクスを利用したネットワークが実際に、変化の多い環境で個体が効率良く振る舞う、即ち我々の提唱する作業記憶のダイナミクスが逐次的行動選択に貢献するかどうか調べた。その際に、進化プログラミングを用い、リカレントネットによる個体を何世代かにわたって"進化"させ、自己結合とバイアスの値が、我々の仮説のダイナミクスを生じる領域に収束するかを調べた。

 結果は、確かに、進化したリカレントネットの個体の自己結合とバイアスは我々の予測した領域に収束し、また、それらの個体は、良いパフォーマンスを示した。この結果は、我々の提案する作業記憶のダイナミクスが、逐次的行動選択に有効であることを示している。

逐次的行動選択のための長期記憶

 大脳基底核(Basal Ganglia,以下BG)は、古くから運動系に関わるとされたが、その機能的役割については良く分かっていなかった。しかし、近年、運動系以外の大脳皮質との結合が確認され、また、BGのドーパミン性神経細胞が,学習の初期には報酬(強化信号)に反応し,学習が進むにつれ,その報酬を予測させる刺激に反応するようになることが実験的に示された(Schultz et al.,1994)。これらのことから、BGは逐次的行動選択の長期記憶の獲得・遂行に深く関わる、ひいては高次認知へ関与する部位として注目を集めている。

 強化学習(Reinforcement Learning,以下RL)は,ニューラルネットワークの分野で近年進展著しい研究領域である。RLでは、ある状態の実現に対する強化信号がスカラー値で与えられる。これを利用して、初期状態からある状態の実現に至るまでの状態遷移の中で,各状態の評価関数を「試行錯誤」により作りだす。この評価関数を通じて,ある状態実現への最適化,即ち時系列上での選択の最適化を,RLは行なう。

 Barto,Houkらは、先に述べたSchultzらの実験結果に基づき、RLの典型的学習アルゴリズムであるTemporal Difference Learning(TD学習)を行うActor-Criticスキーマと対応づけて、BGの学習機構に関する仮説を抽象的レベルで提案した(Barto,1994,Houk et al,1994)。これらの仮説はBGの機能解明のために理論的に重要な手がかりを与え,かつ、そのモデルはBGとRL(Actor-Criticスキーマ)の抽象的な対応関係を指摘しているが,BGの下部組織構造とその関連部位が,時系列的行動選択の学習・遂行に担う各々の機能的役割については,未知の部分が多い.本研究では、BGの下部組織構造とその関連部位の逐次的行動選択における機能的役割をより具体的に解明するために、彦坂興秀(順天堂大)らが近年開発した逐次的行動選択課題,通称,2x5課題の実験結果と、我々の提唱する大脳基底核及び関連部位における逐次的行動選択のモデルとの比較検討を行なった。

 第一に、我々は、BGの下部組織構造とその関連部位の逐次的行動選択における機能的役割について、様々な実験結果を元に仮説を提唱した。我々のモデルでは、RLによる学習と同時に、状態と行動選択の間の弱い相関学習が起きる。このモデルによる2x5課題のシミュレーション結果は、実験結果と良い対応を示した。これらの結果は、逐次的行動選択に関するBGの下部組織構造とその関連部位の機能的役割について、多くの示唆を与えており、また、今後の実験的研究に関して興味深いいくつかの示唆を与える。

審査要旨

 学術修士中原裕之提出の論文は"Sequential Decision Making in Biological Systems:The Role of Nonlinear Dynamical Phenomena in Working Memory and Reinforcement Learning in Long-Term Memory"(生物システムの逐次的意思決定:作業記憶の非線形ダイナミクスの役割と長期記憶での強化学習の役割)と題し、8章からなっている。

 生命体は、時間とともに変化する環境の中で、逐次的に行動を選択して目的を達成する機能を備えている。このような逐次的行動選択や逐次的意思決定には、時間スケール、処理すべき情報の複雑さ等において様々な種類やレベルがあるが、多くの生命体は異なる特性を持つ記憶システムを駆使して環境に対応していると考えられる。例えば人間では短期記憶ないしは作業記憶と長期記憶が挙げられる。

 論文提出者は、逐次的行動選択を実現する記憶システムの内部機構とその機能に理解の光を当てるべく計算論的立場からのアプローチを試みている。すなわち、比較的時間スケールが短く、かつ処理すべき情報の複雑度が低い場合の例として、作業記憶における外界情報の取捨選択によって実現される逐次的行動選択のモデルを、また比較的時間スケールが長く、かつ処理すべき情報の複雑度も高い場合の例として、長期記憶における強化学習とそれに基づく行動選択のモデルをそれぞれニューラルネットワークの枠組みの中で提案し、その可能性と妥当性を検討している。

 本論文の第1章は序論であり、以上のような研究の背景や本研究の目的と意義を述べている。第2章では作業記憶における逐次的行動選択のメカニズムについての分析が行われている。第3章では、後の第6章におけるモデル構築の基盤となるべき事項として、大脳基底核とその周辺部位についての生理学的・解剖学的知見や脳損傷患者の神経科学的知見を検討している。また第4章では、後の第6章で提案する強化学習のモデルとアルゴリズム導入の準備として、従来の研究経緯や提案をサーベイし、それらの限界と改善点について述べている。第5章では、後の第7章でのモデルシミュレーションで比較検討の対象とする、彦坂ら(順天堂大)の猿を用いた逐次的作業の訓練・学習実験の概要を説明している。第6章では、これらのサーベイや詳細な検討を踏まえて、大脳基底核とそれに関連する大脳皮質各部位の機能的役割についての仮説を整理提案し、これらの仮説に基づいてニューラルネットワークモデルと強化学習の具体的アルゴリズムを定式化している。第7章では、提案したモデルとアルゴリズムを用いて第5章に述べた猿の逐次的作業に関する訓練・学習実験のシミュレーションを行い、様々な点で猿の学習パフォーマンスと定性的に一致する結果が得られることを示している。第8章はまとめで、本研究で得られた成果と将来の発展方向に関する展望が述べられている。

 本論文で得られた成果の概要は以下のとおりである。

 短期記憶においては、1)シグモイド関数を入出力関係とするニューロンが自己結合を持つ場合の作動ダイナミクスを分析し、自己結合とバイアスの値のセットがサドルノード分岐点近傍にあるときには、逐次的行動選択に重要と考えられるニューロン活性値のある一定期間の保持と速やかな活性値の移動の実現が可能であることを示した。また、2)このようなニューロンからなる簡単なリカレントネットワークを持つ個体のモデルを構成し「人工生命」の分野で利用される「食物探索課題」を採用して、進化プログラミングにより個体を何世代かにわたって進化させると、各個体の自己結合とバイアスの値のセットが、上述の分岐点近傍に収束していくこと、およびそれらの個体が良いパフォーマンスを持つことから、提案された作業記憶のダイナミクスが逐次的行動選択に寄与している可能性が高いことを示した。

 長期記憶においては、3)生理学、解剖学、心理学等の広範な研究領域から得られている知見を詳細に検討した上で、大脳基底核と大脳皮質の関連する各部位との間の3つの神経ループに着目し、それぞれのループの情報処理の分担と強化学習における機能的役割についての仮説を整理提案した。また、4)これらの仮説に基づいて3つのループそれぞれをニューラルネットワークで置き換え、具体的な強化学習アルゴリズムを提示し、それら3つのネットワークの間の相互連関についても定式化した。5)これら大脳基底核とその関連部位における情報処理と強化学習の機構と機能に関する仮説とモデルは、そのモデル構築の妥当性を含めて現時点で考え得る最も先端的モデルの1つと云ってよいが、その信頼性の検証は必ずしも容易ではない。個々のループのモデルと実際の脳の内部のニューロンの作動状況との直接的な比較は現段階では困難だからである(猿の実験では強化学習におけるニューロンレベルの測定が最近開始されている)。そこで、本論文では、猿を用いた逐次的作業訓練(強化学習)の実験に着目し、大脳基底核ネットワークモデルを用いて、猿の実験における反応行動のシミュレーションを試み、その行動パフォーマンスのレベルでの比較検討を行っている。そして、短期学習の効果(毎日の学習の初期と後期のパフォーマンス差)および長期学習の効果(学習を繰り返し始めた初日、数日後、1ヶ月後のパフォーマンス差)のいずれもが実験とシミュレーションの双方で極めて類似した様式で明確に観察されること、学習された逐次系列作業とその逆順作業の間のパフォーマンス差が猿とモデルの間で定性的に良く一致すること、脳の一部部位の活動をブロックしたときの猿とモデルの対応機能を劣化させたときのパフォーマンスの変化傾向についても両者の間で良く一致すること、などを示している。これらのモデルシミュレーションによって、パフォーマンスの定性的な一致というレベルではあるが、モデルの妥当性が相当程度に検証されたといってよい。

 以上のように、本論文は生体の逐次的行動選択という複雑な意思決定過程を解明すべく、短期記憶および長期記憶のそれぞれにおいて先端的計算モデルを提案し、その可能性を検討したもので、人工知能、認知科学、脳科学などの諸学問上貢献するところが大きい。よって審査委員会は本論文を博士(学術)の学位論文として合格と判定する。

UTokyo Repositoryリンク http://hdl.handle.net/2261/54552