学位論文要旨



No 126858
著者(漢字) 大山,潤爾
著者(英字)
著者(カナ) オオヤマ,ジュンジ
標題(和) 動的な視覚情報における文脈情報処理とその学習に関する研究
標題(洋)
報告番号 126858
報告番号 甲26858
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博工第7499号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 准教授 渡邊,克巳
 東京大学 教授 廣瀬,通孝
 東京大学 教授 堀,浩一
 東京大学 教授 中邑,賢龍
 富山大学 講師 戸田,英樹
内容要旨 要旨を表示する

ネットワークや情報機器、映像機器の発展と普及によって、監視カメラなどの防犯システムや、YouTubeなどの動画サイトのように、これまでの「画像」コンテンツに代わり、膨大な「映像」コンテンツが利用可能になった。そのため、膨大な映像コンテンツの記録や情報の検索に必須となる映像解析技術が求められている。映像の解析には、これまで利用されてきた、空間情報である画像解析技術に加え、新たに、映像の時間的変化である、文脈情報を解析する技術の開発が必要である。文脈情報処理の研究は、これまで聴覚情報を対象に研究され、音声認識や言語理解など、現代生活での重要な知見や技術へと応用されてきた。日常生活では、非言語的な情報処理は言語以上に重要性が高いため、視覚情報の文脈的理解に関する研究は、科学的にも重要な知見を含んでいる。しかし、視覚文脈情報処理に関する研究は、科学的検証が始まったばかりであり、映像などの動的な視覚情報の変化から、文脈的な内容を理解する認知過程を実証的に調べた研究報告は、ほとんど存在しない。音声や画像による実験に換わる、映像を対象とした新しい実験手法の確立が課題であった。我々は、この問題を解決するための独自の実験手法を開発し、視覚文脈情報処理の認知特性の解明を目的として研究を行ってきた。本論文では、視覚文脈情報処理に関する知覚特性と記憶特性の新しい研究結果を示した。論文は、(1)文脈情報の知覚特性・(2)文脈情報の記憶特性・(3)文脈情報処理モデルの提案の、3つのテーマから構成される。

(1)文脈情報の知覚特性:はじめに、刻々と変化する膨大な視覚情報が、文脈に応じて分節化されて知覚されることを示した。音声言語の研究において、Fodorら(1965)はスピーチの言語的な文節のタイミングの前後に呈示した短い音刺激が、文節と同時に聞こえる現象を発見し、音声言語が文法的・言語文脈的な分節に区切られて知覚されることを示している。映像においても、音声言語と同様の分節が知覚されているとすれば、映像の分節前後で呈示されたフラッシュ刺激のタイミングが分節と同時に知覚されるはずである(図1参照)。我々は、言語文脈における聴覚情報処理の研究手法を視覚実験に応用し、視覚的な文脈の知覚特性を調べる新しい実験課題を開発することで、動的な視覚情報が音声言語と同様に、文脈によって分節化されて知覚されていることを明らかにした。

(2)文脈情報の記憶特性:次に、我々は、映像中の各場面の記憶における視覚的文脈の影響を調べた。ここでは、連続的に変化する場面の記憶精度を調べるために、文字刺激の時系列提示を用いた、時系列場面の再認記憶課題を新しい実験課題を開発した。実験の結果から、突発的な視覚的変化が起こるとその場面の記憶を選択的に向上することを示した。さらに、時系列場面の知覚弁別課題から、場面の視覚情報の知覚弁別反応速度は突発的な視覚的変化の影響を受けないことを示した。

(3)文脈情報処理モデルの提案:(1)と(2)の研究成果を、先行研究報告と合わせて考察し、動的な視覚文脈情報処理モデルを提案した。具体的には、映像の文脈内容とそれに対する知覚と記憶の特性から、映像の視覚文脈情報処理における認知モデルを構築した。

本研究は、言語理解や状況判断といった高次脳機能に関わる、時系列情報処理の脳内メカニズム解明に貢献する科学的知見を示す。例えば、本研究で示した映像の文脈における知覚と記憶の特性を、fMRI やMEG などの脳機能画像法と用いた映像観察中の脳活動データを対応させる事で、文脈的理解の情報処理過程を脳機能的に解明に貢献できる。また、本研究で新しく開発した実験手法によって、映像の認知特性を測る事で、対象者の映像内容の理解の仕方や理解の程度を判断できると考えられる。これは、文脈的理解の発達過程解明や、文脈内容理解と知能を研究する上で有効な知見や診断技術となるだろう。

さらに、本研究の示した視覚的文脈情報処理における知覚と記憶の特性、および、その情報処理モデルを、これまでの画像解析技術と組み合わせることで、映像情報からヒトが内容を理解する上で必要な情報を抽出する映像解析システムなどに応用可能である。こうした知能的な映像解析システムは、膨大な映像コンテンツの活用を支援するシステムとして、社会的貢献が期待できると考えられる。

図1. Fodorらの音声言語研究と、我々の映像の視覚的分節化の研究における実験手法の対応

審査要旨 要旨を表示する

ネットワーク技術や情報機器、映像機器の発展と普及によって、現在、膨大な映像コンテンツが利用可能になりつつある。しかしながら、映像コンテンツの活用、特にそれらの記録や情報の検索には、これまで利用されてきた空間情報である画像解析技術に加え、新たに、映像の時間的変化である文脈情報を解析する技術が必要である。文脈情報処理の研究は、これまで聴覚情報を対象に研究され、音声認識や言語理解など、現代生活での重要な知見や技術へと応用されてきた。日常生活では、非言語的な情報処理は言語以上に重要性が高いため、視覚情報の文脈的理解に関する研究は、科学的にも重要な知見を含んでいる。しかし、映像の文脈情報処理に関する研究は、科学的検証が始まったばかりであり、映像などの動的な視覚情報の変化から、文脈的な内容を理解する認知過程を実証的に調べた研究報告はほとんど存在せず、音声や画像による実験に換わる、映像を対象とした新しい実験手法の確立が課題であった。本論文は、この問題を解決するための独自の実験心理学的手法を開発し、視覚文脈情報処理の認知特性の解明を中心としたものである。

第1章では、上記にまとめられているような研究の目的と、隣接分野との関係が、工学・認知科学・神経科学の観点からまとめられており、実験心理学的にロバストな結果をだすことのできる実験手法が欠けていることが、もっとも大きな問題である点が挙げられている。

第2章では、映像の文節が知覚に及ぼす影響を調べるために、実写映像を使った実験と比較的単純な映像を使った実験の結果が報告されている。この中では、音声言語知覚の研究におけるFodorら(1965)の現象(スピーチの言語的な文節のタイミングの前後に呈示した短い音刺激が、文節と同時に聞こえる現象を発見し、音声言語が文法的・言語文脈的な分節に区切られて知覚される現象)を、動的映像に応用し、動的な視覚情報が音声言語と同様に、文脈によって分節化されて知覚されていることを明らかにしている。

第3章では、映像中の各場面の記憶における視覚的文脈の影響を調た実験を報告している。具体的には、連続的に変化する場面の記憶精度を調べるために、文字刺激の時系列提示を用い、時系列場面の再認記憶課題を新しい実験課題を用いて厳密に調べている。その結果、突発的な視覚的変化が起こるとその場面の記憶を選択的に向上することを明らかにしている。

第4章では、視覚文脈情報を知覚・記憶特性が、文脈情報の時間的予測可能性によってどのような影響を受けるかを調べる実験を行い、時間的に予測不可能な視覚的変化は、時系列刺激の知覚判別速度に影響を与えないこと、また、視覚的変化が予測不可能なタイミングで起こる場合、変化と同時に変化の起きた位置に呈示されていた刺激の記憶が、選択的に促進されることが明らかにされた。一方、時間的に予測可能な視覚的変化は、時系列刺激の記憶に影響を与えないことも示している。

第5章では、前章までの実験結果を先行研究と合わせて考察し、動的な視覚文脈情報処理モデルが提案されている。具体的には、映像の文脈内容とそれに対する知覚と記憶の特性から、映像の視覚文脈情報処理における認知モデルを構築し、その応用などが考察されている。

本論文は、言語理解や状況判断といった高次脳機能に関わる、時系列情報処理の脳内メカニズム解明に貢献する科学的知見を与えている。例えば、本研究で示した映像の文脈における知覚と記憶の特性を、fMRI やMEG などの脳機能画像法と用いた映像観察中の脳活動データを対応させる事で、文脈的理解の情報処理過程を脳機能的に解明への貢献が期待される。また、新しく開発した実験手法によって、映像の認知特性を測る事で、対象者の映像内容の理解の仕方や理解の程度を判断する材料とすることも可能を思われる。これは、文脈的理解の発達過程解明や、文脈内容理解と知能を研究する上で有効な知見や診断技術となりうる。さらに、本研究の示した視覚的文脈情報処理における知覚と記憶の特性、および、その情報処理モデルを、これまでの画像解析技術と組み合わせることで、映像情報からヒトが内容を理解する上で必要な情報を抽出する映像解析システムなどに応用可能である。こうした知能的な映像解析システムは、膨大な映像コンテンツの活用を支援するシステムとして、社会的貢献が期待できると考えられる。

よって本論文は博士(学術)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク