学位論文要旨



No 123471
著者(漢字) 細田,謙二
著者(英字)
著者(カナ) ホソダ,ケンジ
標題(和) 高次視覚野の部品表現と位相的組織化を実現する学習モデルの提案
標題(洋)
報告番号 123471
報告番号 甲23471
学位授与日 2008.03.04
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6787号
研究科 工学系研究科
専攻 システム量子工学専攻
論文審査委員 主査: 東京大学 教授 古田,一雄
 東京大学 准教授 大澤,幸生
 東京大学 准教授 鈴木,秀幸
 東京大学 准教授 渡辺,正峰
 東京大学 学外者 辻野,広司
 東京大学 学外者 田村,弘
内容要旨 要旨を表示する

脳の特筆すべき機能の一つは、ものを見る能力である。顔やコップなど、多様な物体を様々な状況で冗長に認識することは現在のコンピュータでも真似できない。このような物体認知は、脳の中では腹側経路と呼ばれる階層的な視覚システムを通して行われる。この経路は幾つかの連続する皮質領野からなり、段階的により複雑でより冗長な物体特徴を視覚入力から抽出する。物体のエッジ抽出から始まり、曲率、T字特徴などを経て、さらに高次の物体特徴、例えば顔の特徴など、が抽出される。また、この経路を経るにつれ、ニューロンの刺激応答は、位置、大きさ、角度などの物体変化に対してよりロバストになる。

腹側経路の物体表現は、とりわけ、次の2つの特性を有している。一つは部品的な物体表現である。個々のニューロンは、物体そのものをコードするのではなく、また、フーリエ分解のように完全に分散的にコードするのでもなく、冗長な部品的な物体特徴をコードする。例えば、この経路の最終段階に位置するinferior temporal cortex(IT野)の集団的活動の計測から、物体呈示によって皮質上の複数の活動パッチが出現し、個々の活動パッチがその物体の部分的特徴をそれぞれ表していることが示されている。

もう一つは連続する物体特徴が皮質空間上連続的にコードされるという位相的組織化である。この組織化では、似た刺激選択性をもつニューロン同士が皮質上近接する。さらに、皮質の接線方向に対する刺激選択性の変化が、特定の連続的な物体変化と連動する。この考えは、IT野の集団的活動の計測から、物体呈示によって励起された個々の活動パッチの皮質上の位置が物体の系統的な変形に伴って連続的に変化することから提唱されている。これまでに、これら2つの表現特性に関して様々な理論的考察がなされてきたが、まだその内部メカニズムは明らかになっていない。

従来、皮質の位相的組織化を説明する学習モデルとして、Self-organizing Maps (SOM)法[3]が用いられてきた。SOMは、高次元の個々の入力を低次元マップ上の個々の点に、なるべく似た入力同士がマップ上近接するように写像する。特に、一つの入力を連続的に変化させると、その代表点も連続的に変化するという位相保存性を持つ。この手法によって脳の位相的組織化の様々な側面が説明されてきた。しかし、SOMの代表点は入力そのものを表しており、脳の部品表現は説明できない。

本研究では、上述の部品表現と位相的組織化を同時に実現する学習モデルを提案する。このモデルは、non-negative matrix factorization (NMF)という基底分解手法に位相保存性を持たせるように発展させたものである。一般に、基底分解手法は入力データを複数の基底の重み付け組み合わせで再現するような基底および組み合わせ係数を導く。代表的な基底分解手法であるPrincipal Component Analysis (PCA)は、このデータ再現を最大限に追い求め、完全に分散的な表現を導く。別の代表的な基底分解手法であるVector quantization (VQ)は、入力をどれか一つの基底によってのみ表現するという制約を課し、入力をクラスわけする。PCAでは基底と係数が、VQでは基底が正負いずれの値もとりうることができる一方、NMFは、このデータ再現において、基底および組み合わせ係数の全要素が非負であるという制約を課す。非負制約があるために、基底同士の打ち消しあいがないという特徴を持つ。NMFは特に、回数や割合のような非負のデータに対し、直感的に分かりやすい部品的な表現を導くことが示されている。さらに、NMFの非負制約は、脳の情報コーディングと関連がある。脳における情報の運び手は神経細胞の発火率で、それは非負であるからである。さらに、神経細胞の結合重みは、興奮性結合と抑制性結合のどちらかで、学習はそれぞれで符号が変わらずに起こるからである。非負制約の学習は脳の中で自然に実装されると考えられる。

提案モデル(Topographic NMF:TNMF)への拡張は、NMFの基底間に外的な近傍結合関数を設けることで行われる。非負制約があるために近傍関数の位相構造に従って基底が重なり合うようになる。ここで、非負制約は部品表現だけでなく位相的組織化においても重要である。この拡張によって、NMF由来の部品表現とともに、入力の連続的変化を捉えるような位相的組織化が実現される。SOMでは一つの入力はマップ上の一点で表されるが、TNMFでは一つの入力は複数の点(活動ピーク)で表される。このとき、個々の点は入力の部分的特徴を表し、その部分的特徴が連続的変化するとマップ上を連続的に移動する。SOMはVQの位相的拡張版といえるが、TNMFはNMFの位相的拡張版といえる。

本論文では、TNMFを腹側経路の学習モデルとして捉え、TNMFの特性を明らかにした。具体的には、腹側経路の初期段階を模倣した階層モデルを組み入れ、その最終層の出力をTNMFモデルへの入力とした。この階層モデルは、応答の選択性を高める処理と不変性を高める処理を交互に行う。具体的には、S層とC層と呼ばれるものが交互になって構築され、S層ではパターンマッチング的に特徴検出が行われ応答選択性が高められ、C層ではS層の応答がOR回路的に統合され応答不変性が高められる。一つの学習層からなる基底分解モデルでは応答の選択的と冗長性はトレードオフの関係にあるが、このような多層構造によってそのようなトレードオフ問題が解消される。ここでは実際に、階層モデルがTNMFの学習によって高次視覚野で見られたような部品表現と位相的組織化を獲得したことを定性的に示した。

次に、階層モデルおよびTNMF学習の生理学的妥当性を検討するため、多数の視覚刺激に対する応答に関して、階層モデルと実際のサルのIT野ニューロンとの比較を行った。ただし、本論文では、簡略化のため、集団応答の正の応答構造にのみ着目し、切り捨てた抑制応答の情報表現は取り扱わなかった。具体的には、ニューロン応答は刺激呈示期間中の発火率から、自発発火率で引いたものとし、負の値をとった場合にはゼロとした。ここで、全刺激に対する全てのニューロンの正の応答の分散と負の応答のそれはそれぞれ22.2と3.5であり、ニューロン応答の大部分の情報は正の応答にあったといえる。

比較ではまず、各ITニューロンに対し、最もよく似た刺激選択性を持つモデルニューロンを各モデル層からそれぞれ選び出した。そして、幾つかのITニューロンの刺激選択性はモデルニューロンのそれによってかなりの程度説明できることを示した。次に、モデルニューロンのITニューロンに対する応答の再現性のよさをモデル層のレベルで定量的に評価した。ここでは確率的な指標を導入した。そして、単一ニューロンレベルのIT野の選択性の再現において、構築した階層モデル、そしてTNMF学習の生理学的妥当性を示した。

また最後に、TNMFを脳の学習モデルとして提案するだけでなく、データマイニング手法として提案した。まず、TNMFをIT野のニューロンデータに適用し、ニューロンの集団コーディングの様子を可視化したマップが得られた。その表現は過去の様々なIT野の知見と整合性がとれていた。次に、TNMFをWebコンテンツに対しユーザー集団が付与したタグ回数のデータに適用し、より効果的に集合知を俯瞰して見渡せる地図が得られた。特に、関連のあるコンテンツ同士が近くに配置されるとともに、複合的な意味を持つコンテンツは複数の点で表され、従来のマッピング方法よりもより豊かな情報を捉えることができた。

結論として、本研究では、腹側視覚経路に見られる部品表現と位相的組織化という表現特性を統一的に説明する学習モデルとして、TNMFを提案した。そして、視覚システムを構築し、生理学データと比較することによって、TNMF学習の生理学的妥当性を示した。さらに、TNMFをデータマイニング手法として提案し、その応用可能性を示した。

審査要旨 要旨を表示する

本論文は、脳の高次視覚野に見られる部品表現と位相的組織化を統一的に説明する学習モデルを提案するもので、階層視覚モデルを構築し、その上位層の学習に提案モデルを適用することで示すことに成功した。さらに、モデル応答とIT野ニューロンの応答とを比較し、IT野ニューロンの再現に関して正しい方向に提案モデルが学習することを示した。さらに、提案モデルをWebコンテンツに対するタグデータに適用し、書店を散策するような、新しい形のデータマイニングができることを示した。

本論文は13章から構成される。

第1章は序論であり、脳の視覚情報処理に関する背景、および提案モデルを考案するに到った理由を述べ、研究内容の概要を示す。

第2章では、脳の視覚情報処理に関するこれまでの知見が述べられている。神経細胞(ニューロン)の機能特性を述べた後、視覚情報処理の流れについて概略し、物体認知の情報処理に関わる腹側経路の生理学的知見を詳細に説明する。最後に、提案モデルで着目した高次視覚野に見られる部品表現と位相的組織化に関する研究を解説する。

第3章では、提案モデルを理解する上で重要な幾つかの学習モデルを紹介する。学習モデルを理解する上で必要な基本的な定式化を行った後、主成分分析、ベクトル量子化、独立成分分析について解説する。

第4章では、従来の皮質の位相的組織化モデルである自己組織化マップについて、そのアルゴリズムおよび脳の情報表現との関係について説明する。

第5章では、提案モデルの元となる学習モデル、Non-negative Matrix Factorization (NMF) (Lee and Seung 1999)を説明する。まず、NMFに関する基本的特徴を述べた後、学習アルゴリズムがどのように導出されるかを記述する。

第6章では、提案モデルについて説明する。提案モデルは、NMFを位相的組織化が実現されるように発展させたものである。そのモデル式およびアルゴリズムを記述する。

第7章では、提案モデルの特性を人工データへの適用によって示す。提案モデルの、幾つかの重要な特性をそのシミュレーション結果とともに解説する。

第8章では、提案モデルの学習を組み入れた階層的視覚モデルについて説明する。階層的処理の必要性、およびそのアルゴリズムを述べる。

第9章では、提案モデルによって学習した階層モデルの上位層の特徴を示す。連続的に視点変化する物体画像を見せたときの活動分布を示し、部品表現および位相的組織化が獲得されていることを明らかにする。

第10章では、提案モデルの生理学的妥当性を検討するため、モデル応答とサルのIT野ニューロンの実応答との比較を行う。そして、ニューロン再現において、構築した階層モデル、そして提案モデルの学習の生理学的妥当性を示す。

第11章では、第10章までの研究についての考察を述べる。理論的考察では、TNMFの構造的特徴を脳の学習モデルの立場から議論し、また、他手法との関連性と違いを述べ、この手法の新規性を明らかにする。生理学的考察ではニューロンデータとの比較結果の原因と意義について述べる。

第12章では、提案手法のデータマイニング手法としての応用について紹介する。一つはニューロンの応答データを、もう一つはWebのコンテンツに対するタグ付けの度数データを対象に解析を行う。ニューロンデータの解析では、過去の様々な生理学的知見と整合性がとれた結果が得られたことを示す。タグデータの解析では、書店を散策するような、新しい形のデータマイニングが可能であることを示す。

最後に、第13章で結論を述べる。

以上のように、本研究の成果は、脳の情報表現の重要な特性である部品表現と位相的組織化を統一的に説明する学習モデルを提案したことであり、これらの表現特性に対する重要な知見を与えるものである。今後、本研究に関する洞察を基に、脳の機能が解明されていくことが期待される。さらに、提案モデルは、データマイニング分野においても新たな可能性を示す手法といえる。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク