学位論文要旨



No 117399
著者(漢字) 小村,豊
著者(英字)
著者(カナ) コムラ,ユタカ
標題(和) 視聴覚視床領域における報酬予測の符号化
標題(洋)
報告番号 117399
報告番号 甲17399
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(医学)
学位記番号 博医第2007号
研究科
専攻
論文審査委員 主査: 東京大学 教授 花岡,一雄
 東京大学 講師 玉置,泰裕
 東京大学 教授 金澤,一郎
 東京大学 教授 上野,照剛
 東京大学 助教授 山岨,達也
内容要旨 要旨を表示する

はじめに

外界の物理情報は耳、目、皮膚などの末梢感覚器官から不断に入ってくるが、我々はそれらすべてを一様に知覚、認知しているわけではない。意識的にも、無意識的にも、生物学的に意味のある情報を選択し行動している。そのような物理情報から意味情報への変換は脳内のどこでどのように行われているのだろうか。この変換には、以下の2つの過程が付随していると考えられる。第一に、視覚や聴覚といった感覚種を問わず、ある意味において統一される過程。第二に、現在の情報に単純に反応するのではなく、過去の経験を照合した上で、現在の情報の価値を判断し、未来へ生かす過程。これら2つの必要条件を浮き彫りにするような実験をdesignした。

実験パラダイム

物理情報として、聴覚刺激と視覚刺激という2種類の感覚刺激を、意味情報としては、報酬の有無という2つの状態を設け、おのおの2種類の情報をくみあわせて、4種類の課題をラットに識別するように訓練した。ラットは、無痛的に固定された状態で、純音や白色光といった感覚刺激を2秒間呈示され、1秒間待ったあと、前にでてくるチューブを舐めると報酬が得られるといった課題を遂行する。報酬には、自然報酬としてショ糖溶液を、人工報酬として脳内自己刺激を使った。このような感覚刺激と報酬の連合課題をラットが行っている時に、脳からガラス被覆タングステン微小電極による細胞外記録法にて、単一神経細胞活動を多数記録した。

記録部位は、以下の理由から、聴覚や視覚情報を中継する視床領域を選択した。従来まで、感覚情報は、視床、皮質を経由して、扁桃体という領域に至り、はじめて、意味認知が可能になると考えられてきた。しかし、視床から扁桃体への直接経路があるということ、更に皮質から視床へfeedbackの投射があるということに着目して、感覚から認知への変換の起源が、視床にあるかもしれないと考えた。

結果

【物理情報または意味情報をコードするニューロン】

実際記録された視床のニューロン活動は、大きく二分できた(図1)。

第一のタイプは、物理情報をコードする従来からいわれてきた感覚型ニューロンで、音または光のどちらか一方の感覚刺激の呈示時間のみ反応した。その活動は、報酬との連合の有無の影響をうけなかった。

第二のタイプは、報酬という意味情報をコードするニューロンで、感覚刺激の呈示後、一過性にすばやく反応する早期成分と徐々に反応して報酬が得られる直前でピークに達する遅発性成分の2峰性パターンを呈した。早期の成分は、一方の感覚種にしか反応せず、過去の学習経験に応じて反応の強さが変化した。後期の成分は、音や光といった感覚種に関係せず、報酬があるという条件のみに反応がみられた。

【機能的局在】

一般に感覚伝導路には、主経路と副経路が並列に走行しており、前者は第一次感覚野へ、後者は第二次感覚野へ投射している。視床でも主経路と副経路に分かれていて、後者から扁桃体や線条体や嗅周囲皮質など、報酬の情報処理に関係する脳領域へ直接投射している。興味深いことに上記のような2峰性の神経活動パターンは、視床の副経路に相当する領域のみに限局していた。

【報酬予測に対する前向きまたは後ろ向きの情報処理】

次に、このような視床副経路の二峰性の活動パターンは、どんな情報を担っているかを調べるために、報酬のparameterを操作した。例えば、報酬を水にしたり、ショ糖にしたり、ショ糖を倍量にして、報酬の価値をあげていくと、それに応じて、後期成分のピークが高くなる。また、報酬がもらえるタイミングを感覚刺激呈示終了後1秒後にあたえる最初の状況から、すぐにあたえる状況や2秒後にあたえる状況に変更すると、後期成分のピークの時点がそれに応じて、報酬直前までshiftした。一方、早期成分は、このような報酬parameterの操作後も、変化しなかった。したがって、後期成分は、次にいつ、どのくらいの報酬がもらえるのかという前向きの情報処理(prospective processing)を担っていると考えられる。

更に、感覚刺激と報酬間の連合を急に消去したり、再連合させたりした時のニューロン活動の経時的変化を観察した。後期成分は、報酬獲得行動に応じて、反応が素早く変化し、報酬がない状態が続くと自発発火レベルに落ち着いた。一方、早期成分は、消去学習中に徐々に反応が減少していくが、完全に消えることはなく、過去に報酬と連合されていない感覚刺激に対する反応に比べ、高いレベルに落ち着くことが多かった。また、再連合すると、すぐに元の反応レベルに回復した。この消去と再連合のasymmetricalな可塑性から、早期成分は、現在の感覚情報だけでなく、過去の学習経験を反映したかのような後ろ向きの情報処理(retrospective processing)を担っていると考えられる。

考察

【情報の流れ】

以上のような視床で観察された2峰性の活動は、他の脳領域とどのように連関しているのだろうか。早期成分は、感覚種に特異的で、短潜時であることから、末梢器官からの直接入力(bottom-up)であることが考えられる。一方、後期成分は、報酬にむかって徐々に上がってくる同じタイプのニューロンが、線条体や扁桃体や前頭皮質でもみられ、解剖学的関係もあわせると、嗅周囲皮質からの入力の影響(top-down)が強いと考えられる。

【強化学習理論との関連】

強化学習理論は、不安定な環境のなかでも、報酬を利用した試行錯誤しながら適応していく生物の自律能力のmodelとして、Actor-critic architectureを軸に提唱された(Sutton and Barto)。本実験の課題も、試行を正しく出力すれば、報酬をもらえるという強化学習の要素を含んでいる。今回視床でみられた、報酬にむかって徐々に上がってくる後期成分は、強化学習理論において、生物内部の報酬期待を定量化した評価関数(Value function)とみなすと、報酬価や報酬タイミングを変化させた時のニューロン活動の振る舞いがうまく説明できる。一方、早期成分は感覚種に特異的であることから、環境からの入力情報(Sensory state)と考えられる。昨今、黒質線条体系を中心とするドーパミン細胞が、強化学習の進行を左右する、実際に得られた報酬と予測された報酬の差分(Temporal difference error)を具現しているといわれ、注目されている。しかしTemporal difference errorは、Value functionやSensory stateの上に成立する。本研究は、今まで不明だったValue functionやSensory stateの生物学的実装化とともに工学的応用へ貢献する可能性がある。

【感覚系視床の役割】

従来、視床は専ら、現在の感覚情報を大脳皮質へ中継する機能しかもたないとみなされてきた。しかし、本研究によって、現在の情報だけでなく、過去の経験や未来への予測の情報が反映されている事がわかった。古典的恐怖条件付けでも、視床内副経路に相当する領域内で、短潜時の成分が、過去の経験に応じて、その活動強度を変化させているという先行研究も勘案すると、視床は、生物学的に重要な情報を選別して、大脳領域に伝達するfilterの役割を果たしているのかもしれない。

物理情報をコードするニューロン

意味情報をコードするニューロン

審査要旨 要旨を表示する

本研究は、外界の感覚情報が、生物学的意味のある情報へ変換される脳内機構を明らかにするために、数種類の視聴覚刺激と報酬を操作しうる系で、ラット後部視床領域から、遅延付き刺激−報酬連合学習課題遂行中、リアルタイムに単一ニューロン活動を多数記録し、行動学的・電気生理学的解析を試みたものであり、下記の結果を得ている。

1.感覚刺激として、3種類の周波数の異なる純音(聴覚刺激)と2種類の位置の異なる白色光(視覚刺激)を、報酬として、ショ糖溶液(自然報酬)と脳内自己刺激(人工報酬)を用意し、各種感覚刺激と報酬を連合させた課題をラットに学習させた。学習後の視床ニューロンの応答は、大きく2つのタイプに分類できた。第一のタイプは、従来からいわれてきた物理情報をコードするニューロンで、音、または光のどちらか一方の感覚刺激の呈示時間にだけ、感覚種特異的に応答し、報酬との連合の有無の影響をうけなかった。第二のタイプは、報酬という意味情報をコードするニューロンで、感覚刺激の呈示後、短潜時に出現する一過性の初期応答とそれに続いて応答強度が徐々に増大して報酬の得られる直前でピークに達する後期応答の2相性を呈した。初期応答は、視覚または聴覚特異的で、過去の学習経験により応答強度が変化した。後期応答は、感覚種を問わず、報酬が得られるという状況のときだけ現れた。

2.感覚伝導路は、末梢の感覚受容器から主経路と副経路が並列に走行しており、主経路は第一次感覚野へ、副経路は第二次感覚野へ投射している。組織学的検索をしたところ、上記のような2相性応答を示すニューロンは、扁桃体、線条体、嗅周囲皮質などの報酬の情報処理に関わる脳領域へ直接投射している視床の副経路に相当する領域に局在していた。

3.報酬のparameterを操作したとき、どのように初期および後期応答が、経時的に変化したかを観察した。例えば、感覚刺激と報酬の連合を解消(消去学習)したり、再連合(再学習)したときに、初期応答は、消去学習中に徐々に反応が減少していくが、完全に消えることはなく、過去に報酬と連合されていない感覚刺激に対する応答に比べ、高いレベルに落ち着いた。また、再学習により、速やかに消去学習前の応答レベルに回復した。初期応答は、消去学習と再学習の際、asymmetricalな可塑性を示すことから、現在の感覚情報だけでなく、過去の学習経験を反映したかのような後ろ向きの情報処理(retrospective processing)を担っていると示唆された。一方、後期応答は、報酬獲得行動に応じて、速やかに変化し、報酬のない状態が続くと完全に消失した。

4.報酬を水にしたり、ショ糖にしたり、ショ糖を倍量にして、報酬の価値を高くすると、後期応答だけピークが高くなった。また、報酬がもらえるタイミングを感覚刺激呈示終了時点から1秒後にあたえる状況から、終了直後にあたえる状況や2秒後にあたえる状況に変えると、後期応答だけピークの時点がそれに応じて、報酬直前まで移行した。早期応答は、このような報酬の価値やタイミングの操作後も、変化しなかった。これらのことから、後期応答は、来るべき報酬がいつ、どのくらい得られるのかという前向きの情報処理(prospective processing)を担っていると示唆された。

5.報酬回路のなかで、非一次性の視床領域に直接入力を送っているラット嗅周囲皮質から、上記同様の刺激−報酬連合課題遂行中の単一ニューロン活動を記録したところ、感覚種によらず、報酬に向かって徐々に増加していく応答パターンを示すニューロンを多数認めた。報酬獲得時点を変化させると、それに応じて、ピークが移行した。したがって、嗅周囲皮質は、非一次性視床領域の後期応答と同様に、報酬期待を前向きにコードすると考えられた。報酬に向かって増加していく応答パターンに注目して、嗅周囲皮質と非一次性視床領域のニューロン群の応答潜時を比較した結果、嗅周囲皮質の潜時が、非一次性視床領域の潜時より有意に短いことが判明した。以上から、嗅周囲皮質から非一次性視床領域ヘトップダウンの報酬期待の情報が流入している可能性が示唆された。

以上、本論文は、非一次感覚系視床ニューロンが、刺激−報酬連合学習の後、入力される刺激に対し、過去の経験に基づいて動機づけ価値を評価し(後向き情報処理)、次に来る報酬イベントを予測する(前向き情報処理)ことを明らかにした。本研究は、現在の感覚情報を大脳皮質に中継する機能しかもたないと考えられていた感覚系視床の新たな役割を見出しただけでなく、工学的応用が期待される強化学習理論の生物学的実装化にも重要な貢献をもたらす可能性があり、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク