学位論文要旨



No 124186
著者(漢字) キタニ,クリス マコト
著者(英字)
著者(カナ) キタニ,クリス マコト
標題(和) 映像にもとづく人物行動のモデリングと認識
標題(洋) Modeling and Recognizing Human Activities from Video
報告番号 124186
報告番号 甲24186
学位授与日 2008.09.30
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第205号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 准教授 佐藤,洋一
 東京大学 教授 池内,克史
 東京大学 教授 相澤,清晴
 東京大学 准教授 瀬崎,薫
 東京大学 准教授 上條,俊介
内容要旨 要旨を表示する

This thesis presents a complete computational framework for discovering human actions and modeling human activities from video, to enable intelligent computer systems to effectively recognize human activities. This work is motivated by a desire to create an intelligent computer system that can understand high-level activities of people, thus allowing computer systems to efficiently interact with people. A bottom-up computational framework for learning and modeling human activities is presented in three parts. First, a method for learning primitive actions units is presented. It is shown that by utilizing local motion features and visual context (the appearance of the actor, interactive objects and related background features), the proposed method can effectively discover action categories from a video database without supervision. Second, an algorithm for recovering the basic structure of human activities from a noisy video sequence of actions is presented. The basic structure of an activity is represented by a stochastic context-free grammar, which is obtained by finding the best set of relevant action units in a way that minimizes the description length of a video database of human activities. Experiments with synthetic data examine the validity of the algorithm, while experiments with real data reveals the robustness of the algorithm to action sequences corrupted with action noise. Third, a computational methodology for recognizing human activities from a video sequence of actions is presented. The method uses a Bayesian network, encoded by a stochastic context-free grammar, to parse an input video sequence and compute the posterior probability over all activities. It is shown how the use of deleted interpolation with the posterior probability of activities can be used to recognize overlapping activities. While the theoretical justification and experimental validation of each algorithm is given independently, this work taken as a whole lays the necessary groundwork for designing intelligent systems to automatically learn, model and recognize human activities from a video sequence of actions.

審査要旨 要旨を表示する

本論文は「Modeling and Recognizing Human Activities from Video」(映像にもとづく人物行動のモデリングと認識)と題し,動画からの人物動作の学習,行動文法の学習,行動認識のための推論という人物行動解析における主要な問題に対して解決のための手法を提案し,人物行動解析のための一貫した枠組みを示したものであり,全体で6章で構成されている.

第1章「Introduction」(はじめに)では,本研究の背景と目的について論じた後,提案される手法の適用例を明確に説明し,論文で提案される3つの手法の概要を述べている.

第2章「Preliminaries」(準備)では,当該研究分野における本研究の位置付けについて整理した上で,本研究における重要な3つの概念であるEvent(イベント),Activity(行動),Action(動作)を定義し,心理学分野における知見から行動を構文的なモデルを用いて表現するという本研究の基本アプローチの妥当性を論じている.

第3章「Learning action primitives」(プリミティブ動作の学習)では,関連研究に共通する問題点,具体的には,映像にもとづく動作カテゴリの学習手法は動き特徴のみを用いており, 動作に関連している物体や背景のアピアランス特徴を用いていないことを指摘した上で,人物の動きのみならず,視覚的文脈をも考慮した人物動作カテゴリの教師無し学習手法を提案している.具体的には, 動作カテゴリを学習するために(1) 動き特徴と視覚的文脈の二つを考慮した生成モデルと(2) 大量のデータを処理するためのクラスタリング手法を提案している.複雑な背景のもとでさまざまな動作を行った場面を記録した映像を用いた実験により,視覚的文脈を用いることによって動作カテゴリがより精度良く獲得できることを示し,プリミティブ動作の学習について本手法の有用性を示している.

第4章「Learning the structure of activities」(人物行動の構造学習)では,自然言語の構文解析に用いられている確率文脈自由文法を映像からの人物行動解析へ適用した先行研究を紹介したのちに,それらに共通する問題点を整理している. 本研究では,映像からの人物行動学習では文章の場合と異なり記号列に多くのノイズが含まれるために文法をうまく学習できないという課題に対し,最小記述長原理にもとづき, ノイズを除外した終端記号集合とそれに伴う文法を獲得する手法を提案している. 具体的には, 終端記号の全組合せを評価し, 各々の部分集合の下で得られた文法の複雑さと観測データの記号列尤度とのバランスにもとづき,評価値の高い終端記号集合と文法の候補を特定することにより, 記号列に含まれるノイズを除去しつつ行動文法の基本構造を獲得することを可能としている.シミュレーションデータと実データを用いた実験により, 提案手法の有効性を示している.

第5章「Recognizing structured human activities」(構造的人行動の認識)では,構文モデルを用いて人物の行動を認識する手法を提案している.具体的には,画像処理による基本動作要素検出部分の不確実性に対応するために,文脈自由文法を階層的ベイジアンネットワークへと変換したのちに動作記号列を解析することを提案している.更に,自然言語処理で用いられている削除補間法を利用し,重なっている行動にも対応可能とすることを提案している.サーベイランスビデオを基に生成された動作記号列から重なった行動を認識することにより,本手法の有用性を示している.

第6章「Conclusion」(まとめ)では,本研究の新規性と技術的貢献をまとめた上で,今後取り組むべき課題を述べている.

以上これを要するに,本論文では,人物動作の学習,行動文法の学習,行動認識のための推論という行動解析に関する3つの重要な課題に対して,動きと視覚的文脈の両方を考慮した動作カテゴリの教師無し学習手法、ノイズを考慮した行動文法学習手法、階層的ベイジアンネットワーク削除補間法を用いた行動認識手法を提案し,シミュレーションおよび実データを用いた実験により各手法の有効性を評価したものであり,電子情報学上貢献するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク