学位論文要旨



No 117079
著者(漢字) 伊藤,秀昭
著者(英字)
著者(カナ) イトウ,ヒデアキ
標題(和) 大脳基底核の強化学習モデル : 高次脳機能の実現に向けて
標題(洋) A reinforcement learning model of the basal ganglia system : towards realization of higher brain functions
報告番号 117079
報告番号 甲17079
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5220号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 合原,一幸
 東京大学 教授 木村,英紀
 東京大学 助教授 村重,淳
 東京大学 講師 堀田,武彦
 東京大学 講師 前田,太郎
 順天堂大学 教授 彦坂,興秀
内容要旨 要旨を表示する

 ヒトの脳と同程度以上に高性能な機械を実現するために、脳のアルゴリズムを研究し真似ることは有望である。特に推論やプランニング等といった、脳の様々な高次機能は是非とも実現されなければならない。このような様々な機能を包括的に実現することのできる可能性のある学習理論の枠組みとして強化学習が存在する。強化学習は報酬最大化の理論であり、一方高次脳機能は生命にとって報酬(食料など)を得るために存在する可能性があるからである。

 脳においては大脳基底核系が強化学習に関与しているという仮説が提案されている。しかし実際には簡単な順序学習等で議論されており不明な部分が多い。そこで本論文ではまずサルの大脳基底核の神経活動と強化学習モデルとの比較を行った。タスクとして彦坂興秀教授の考案による1DR/ADRタスクを用いた。これはmemory-guided saccade task、すなわち予め視覚刺激(cue刺激)によりサッケード眼球運動の目標位置を提示してその位置を記憶させておき、その後その位置へサッケードを行なわせるタスクであるが、ADRタスクにおいてはどの目標位置の方向("cue方向")でも成功時に報酬が与えられるのに対し、1DRタスクではいずれか1つの方向("報酬方向")でしか報酬が与えられないというように報酬条件がコントロールされる。報酬条件以外は全く同じであるため、報酬条件の相違の影響を直接的に調べることができ、様々な現象が発見されている。本論文ではまずそれらの現象が強化学習モデルによってどのように説明できるかを考えた。

 始めに、黒質緻密部のドーパミン(DA)ニューロンの発火活動と、強化学習モデルの1つであるTD(temporal difference)モデルとを比較した。DAニューロンの発火活動についてはSchultzらによって報酬の予測誤差をコードしているという仮説が提案されており、TDモデルのTD誤差に対応すると予想されていた(DA=TD仮説)。ただしこれを疑問視する意見も存在した。そこで1DR/ADRタスクにおいてこの予想が正しいか検討した。第一に、"within-block change"について検討した。1DR/ADRタスクはブロックデザイン、すなわち報酬条件一定の連続する約60トライアルを1ブロックとして、これを報酬条件を変えながら繰り返す形で行われたが、各ブロックの開始時に報酬方向は教示されず、サルは報酬の有無を数トライアル経験することでそれを知ることができる仕組みになっていた。ここで、DAニューロンの活動は各ブロックの最初の数トライアルにおいて大きな変化を示した(このようなブロック内の変化をwithin-block changeと呼ぶ)。すなわち、始めの数トライアルでは報酬が与えられるべきタイミングで反応が見られたが、その後そのような反応は消え、代わりにcue刺激に対して反応するようになった。これはサルが報酬方向を理解したことによる変化であると考えることによりTDモデルでよく再現することができた。第二に、"post-reward order effect"について検討した。1DRタスクにおいて、cue方向は擬似ランダムによって決定され、報酬を得なかったトライアルが何回連続したか(post-reward trial count)によって、その次のトライアルが報酬を得られるトライアルであるかどうかの確率が異なっていたが、DAニューロンのcue刺激に対する反応も、post-reward trial countによって異なっていた(これをpost-reward order effectと呼ぶ)。この現象はDA=TD仮説が定量的な意味で厳密に成り立っており、さらにサルがpost-reward trial countに相当する情報を保持しているとすると、よく再現できることが分かった。また、サルが報酬の予測誤差を近似的に計算していると仮定すると、さらに細かい部分まで再現できることも分かった。これらの結果によりDA=TD仮説の妥当性が支持された。

 次に、基底核の尾状核(caudate; CD)ニューロンの発火活動と、強化学習モデルの1つであるactor/criticモデルとの比較を行った。CDニューロンについては、Houkらにより、actor/criticモデルによって説明できるという仮説(CD=actor/critic仮説)が提案されていた。ただし実際の発火活動との比較はあまりなされておらず、また不必要に複雑なモデルが用いられたりしていた。そこで1DR/ADRタスクにおいてできるだけシンプルなactor/criticモデルを用いCDニューロンの発火活動がどの程度説明できるかを検討した。第一に、cue提示前の発火活動について検討した。多くのCDニューロンにおいてこの活動には報酬方向に対する選択性が見られ、その選択性がブロック内で徐々に顕著になる現象が見られたが、これは報酬方向を入力として与えられたcriticモデルのニューロンにより再現できた。第二に、cue提示後の発火活動について検討した。多くの場合報酬の有無に対する選択性が見られ、加えて一部でcue方向に対する選択性も見られることが報告されていたが、それぞれ適当な入力を与えられたcriticモデルのニューロンにより再現された。第三に、saccade時の発火活動について検討した。ここでは多く場合報酬の有無およびcue方向に対する選択性が見られ、報酬の有無に対する選択性がブロック内で徐々に顕著になる現象が見られたが、これはcue方向を入力されたactorモデルのニューロンによって再現できた。第四に、以上の発火活動においてpost-reward order effectが見られたが、これはpost-reward trial countを入力されたcriticモデルのニューロンにより再現された。これらによって代表的なCDニューロンの発火活動の特徴が説明され、CD=actor/critic仮説の妥当性が支持された。最後に、cue提示後に報酬方向の情報を入力されたcriticモデルのニューロンは実際のCDニューロンにおいて観察されなかった活動パターンを示した。これは報酬方向の情報がcue提示後にCDから消失していることを強調する結果であり、基底核での報酬関連処理の特徴を示唆している。

 このような特徴についてより詳しく調べるために解析を進めた。1DRタスクにおいては報酬方向とcue方向とが存在し、cue方向が報酬方向と異なる場合には報酬は与えられない。しかしその場合でも正しくサッケードを行わなければ同じcue方向のトライアルが繰り返されるため、いずれ報酬を得るためには正しくcue方向へサッケードを行うことが必要である。よってこの場合、報酬方向へのサッケードをゴール、cue方向へのサッケードをサブゴールと考えることができる。このゴールとサブゴールがどのように処理されているかは興味深い問題である。

 そこでまずエラーサッケードの性質を調べたところ、報酬方向とcue方向のいずれかの方向へのエラーが多く、cue提示後時間の経過と共にcue方向へのエラーの割合が増していた。これにより、報酬方向とcue方向の両者が行動に影響を与えること、およびcue提示の前後で前者から後者へと行動のバイアスが変化することが示唆された。次に、行動とCDニューロンの発火活動との関係を調べた。眼球運動のパラメータとCDニューロンの発火頻度との間には実際の眼球運動の実行時よりもかなり前から有意な相関が見られた。これによりCDニューロンが眼球運動の制御に関与していること、およびその関与は実行時の直接的なものだけではないことが示唆された。さらに、相互情報量解析によりCDニューロンの発火活動に含まれる情報とその時間変化を調べると、CDニューロンの発火活動に含まれる情報はcue提示の前後で報酬方向からcue方向へと変化していた。これらの結果を総合し、CDでは行動を制御するために報酬方向(ゴール)とcue方向(サブゴール)が処理されており、それらがcue提示の前後で前者から後者へと変化することが示唆された。この変化はcue提示という外的イベントにより引き起こされたものと考えられるが、もし内的に(外的イベントに依存せず)同様のことが起こるとすれば、CDにおいてゴール指向性推論が行われる可能性を示唆している。

 最後に、これらの結果を踏まえ、actor/criticモデルに基づいたゴール指向性推論モデルを提案した。まず、サブゴールの設定をactorの行動と考え、actor/criticモデルに組み入れた。しかしこれだけでは学習速度が遅かったので、"悪いサブゴールの拒否"と"二重学習"という二つの改良を行った。前者はサブゴールを設定した結果報酬の予測値が減少した場合(すなわちTD誤差が負の場合)にその設定を取り消すようにしたものであり、後者はサブゴールのサブゴールまで考慮して学習を並列に行わせるものである。これらにより、actor/criticモデルによってゴール指向性推論が実現され、学習性能も向上しうることが分かった。また、このような学習により階層的な行動制御が自動的に獲得され、さらに学習を重ねるとそれが消滅するという現象も示された。

 以上により、大脳基底核系における報酬関連処理の特徴およびゴール指向性推論という高次脳機能への関与の可能性が示された。より詳細なモデルの検討、および大脳新皮質を始めとする大脳基底核系以外の脳部位との関係を考慮することがこれからの重要な課題である。

審査要旨 要旨を表示する

 ヒトの脳に学んで高性能な機械を実現するために,脳のアルゴリズムを研究し真似ることは有望である。特に推論やプランニング等といった脳の持つ様々な高次機能は,工学的に見ても極めて重要な機能である。これらを包括的に実現しうる学習理論の枠組みとして,強化学習が存在する。強化学習は報酬最大化の理論であり,一方高次脳機能は生命にとって報酬をより多く得るために存在する可能性があるからである。

 本論文は,"A reinforcement learning model of the basal ganglia system-towards realization of higher brain functions-"(和文題目「大脳基底核の強化学習モデル−高次脳機能の実現に向けて−」)と題し,9章より成る。

 第1章では,大脳基底核の強化学習モデルという研究の動機と目的を記述している。脳においては大脳新皮質−基底核系が強化学習に関与しているという仮説が提案され,研究されてきている。しかし実際には簡単な順序学習等で議論されておりまだ不明な部分が多い。そこで本論文ではサルの大脳基底核から得られた神経活動のデータと強化学習モデルとを詳細に対比する。

 第2章では,背景として,大脳基底核についての解剖学的及び生理学的知見について説明している。大脳基底核は報酬あるいは行動制御に関連した処理が行われているという見方が受け入れられつつあるが,詳細については現在研究が進められている最中である。

 第3章では,強化学習理論とそれに基づいて提案された既存の大脳基底核のモデルについて説明している。いくつかのモデルが既に提案されているが,それらの優劣や統一については未だ明らかではない。

 第4章では実験タスクについて説明している。本論文ではタスクとして彦坂興秀教授(順天堂大学)の考案による1DR/ADRタスクを用いている。1DR/ADRタスクはmemory-guided saccade taskであるが,報酬条件が制御されている。報酬条件以外は全く同じであるため,報酬条件の相違の影響を直接的に調べることができる。本論文ではこの実験での現象が強化学習モデルによってどのように説明できるかを考えている。また,将来的に多電極同時記録法を用いた場合の解析方法も提案している。

 第5章では,基底核黒質緻密部のドーパミン(DA)ニューロンの発火活動と,強化学習モデルの1つであるTD(temporal difference)モデルとの比較を行っている。DAニューロンの発火活動についてはSchultzらによって報酬の予測誤差をコードしているという仮説が提案されており,TDモデルのTD誤差に対応すると予想されていた(DA=TD仮説)。ただしRedgraveらのようにこれを疑問視する意見も存在した。そこで1DR/ADRタスクにおいてこの予想がどの程度正しいかを検討した。特に報酬条件が変化した際のDAニューロン活動の変化、および非報酬トライアルの連続による変化についてシミュレーションおよび理論的解析によって検討し,DAニューロンの発火活動特性とTD誤差特性がほぼ一致し,さらにサルが報酬履歴の情報を不確かさを含む形で保持しているとすると,よく再現できることを示した。これらの結果によりDA=TD仮説の妥当性を支持した。

 第6章では,基底核の尾状核(caudate; CD)ニューロンの発火活動と,強化学習モデルの1つであるactor/criticモデルとの比較を行っている。CDニューロンについては,Houkらにより,actor/criticモデルによって説明できるという仮説(CD=actor/critic仮説)が提案されていた。ただし実際の発火活動との比較はあまりなされていなかった。そこで1DR/ADRタスクにおいてできるだけシンプルなactor/criticモデルによりCDニューロンの発火活動がどの程度説明できるかを検討した。pre-cue, post-cue, saccadeという各タスク期間におけるCDニューロンの活動パターンおよびその変化について検討し,シミュレーションおよび理論的解析によりそれぞれの現象がactor/criticモデルのニューロンによってよく再現されることを示した。これによってactor/criticモデルの妥当性を支持した。さらに,cue刺激提示後は報酬条件についての情報が大脳基底核系から消失していることを示唆する結果も得た。

 第7章では報酬に関連した大脳基底核系の処理の特徴についてより詳しく調べている。特に1DR/ADRタスクでのエラーサッケードの性質,眼球運動のパラメータとCDニューロンの発火頻度との相関,CDニューロンの発火活動に含まれる情報,およびそれらの時間変化を調べ,CDでは行動を制御するために報酬情報とcue情報が処理されており,それらがcue提示の前後で前者から後者へと変化することを示唆した。この変化はcue提示という外的イベントにより引き起こされたものと考えられるが,もし内的に(外的イベントに依存せず)同様のことが起こりうるとすれば,CDにおいてゴール指向性推論が行われる可能性を示している。

 第8章では,これらの結果を踏まえ,actor/criticモデルに基づいたゴール指向性推論モデルを提案している。まず,サブゴールの設定をactorの行動と考え,actor/criticモデルに組み入れた。さらに"悪い行動の拒否"と"二重学習"という二つの改良を行なった。これらにより,actor/criticモデルによりゴール指向性推論が実現され,学習性能も向上しうることを示した。また,このような学習により階層的な行動制御が自動的に獲得され,さらに学習を重ねるとそれが消滅することを示した。

 第9章では,各章の結果を総合して結論を次のようにまとめた。本論文は,大脳基底核のドーパミンニューロンと尾状核ニューロンの神経活動について,それぞれTDモデルとactor/criticモデルにより基本的にはよく説明できることを示した。さらに,大脳基底核系における報酬関連処理の特徴を明らかにしゴール指向性推論という高次脳機能への関与の可能性を示した。最後にこれらに基づきゴール指向性推論モデルを提案した。

 以上を要するに,本論文は大脳基底核における神経活動を,実験データ解析および数理モデル解析により調べてその特徴を明らかにするとともに,新たなモデルを提案したものである。これは生体情報工学,そして数理工学上貢献するところが大きい。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク