学位論文要旨



No 127569
著者(漢字) 入江,豪
著者(英字)
著者(カナ) イリエ,ゴウ
標題(和) 情動的印象のモデル化に基づく映像の解析、検索と編集
標題(洋) Video Affective Content Modeling for Analysis, Search, and Editing
報告番号 127569
報告番号 甲27569
学位授与日 2011.09.27
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第354号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 教授 相澤,清晴
 東京大学 教授 喜連川,優
 東京大学 教授 佐藤,洋一
 東京大学 准教授 苗村,健
内容要旨 要旨を表示する

(本文) The goal of video content modeling is to realize methods that enable computers to understand video content like humans do. Recent researchers focus on "bridging the semantic gap" issue and have explored models for capturing the relationship between semantic meaning and low-level features of videos. On the other hand, human understanding does not only rely on semantic meaning of videos, but also affective evaluation. The affective preferences play an important role in video selection. Affective scenes will often be search targets, so catching the emotional highlights are clearly interesting. Moreover, affect has a fundamentally important impact on the viewers' attention and memory. Therefore, modeling affective content of videos will contribute to extending the potential of video content modeling and improving the performance of existing applications such as video analysis, search and editing.

Motivated by these observations, this thesis proposes a series of video affective content modeling methods. Essential questions are: (a) what features of videos cause affects/emotions to the viewers? (b) how can we model various categories of affects based on the features? (c) how can we apply video affective content modeling to the real world applications? This thesis explores answers to these questions on each of the following five different scenarios:

・Interest-oriented video search ranking: Today, consumers are required to search large-scale user generated video (UGV) databases in order to find out interesting UGVs, but this is not an easy task. In Chapter 2, we propose Degree-of-Edit (DoE), a novel content-based UGV search ranking measure that assists users to find interesting UGVs. The core concept of DoE is based on the idea that "a highly edited video is more interesting". For each UGV registered in a video database, our method first estimates its DoE score (level of editing) based on audio-visual features, and then ranks UGVs depending on estimated DoE scores. We show the effectiveness of our method through a series of experiments on over 70,000 UGVs in the context of UGV search.

・Impressive face key-frame extraction: Home videos contain often imagery of people, so human faces are important. Provided an application context where the objective is to extract impressive keyframes from videos, we propose a method to extract "good shot of the person(s)" from a home video. We investigate the influence of facial parameters on the subjective impression that is created when looking at photographs containing people. Based on the findings from the user study, an impression-oriented image ranking function is designed. We evaluate its effectiveness in terms of correlation between the ranking generated by our ranking function and that by ground truth data.

・Joyful, sad and exciting video segments extraction: Pleasure (e.g. levels of joy or sadness) and arousal (level of excitement) are two key factors for representing human's affect. In Chapter 4, we propose a method to extract joyful, sad, and exciting video segments. The key idea of our approach is that emotional audio events (EAEs) are closely related to viewers' affects. The proposed method first detects EAEs, and then estimates levels of joy, sadness, and excitement of video segments by utilizing correlations between EAEs and affects. We show the effectiveness of our method by conducting several experiments.

・Scene classification into basic emotions: Basic emotions indicate the elemental emotion categories and can be blended together in various ways (secondary emotions) to form the full spectrum of human emotional experience. In Chapter 5, we focus on classifying video scenes into basic emotion categories. There are two main issues to be considered: one is "how to extract features that are strongly related to viewer's emotions", and the other is "how to map the extracted features to the emotion categories". For the former issue, we propose affective audio-visual words (AAVW), efficient representation of audio-visual features that strongly related to viewer's affects. For the latter issue, we present a model named latent topic driving model (LTDM), that considers the relationship between latent topic of video scenes and human affects. We show the promising performance of the method that combines AAVW with LTDM.

・Emotionally impactful trailer generation: Since a trailer is ad of a movie, it is expected to be impactful to viewers. In Chapter 6, we explore an automatic movie trailer generation based on video affective content modeling approach. We propose a method to extract impressive speech and video segments. Furthermore, we propose a computational method for estimating affective impact of a shot sequence, and provide an algorithm to arrange a set of shots by maximizing the affective impact. A series of experiments show effectiveness of our method.

According to these scenarios and proposed methods, this thesis will contribute to extending video content modeling and to improving performance of its applications. It is expected that this thesis also provides a promising direction of future video affective content modeling research.

審査要旨 要旨を表示する

本論文は,「Video Affective Content Modeling for Analysis, Search, and Editing (情動的印象のモデル化に基づく映像の解析,検索と編集)」と題し,英文で書かれており,7章よりなる.映像内容解析のゴールは,人のように映像を理解することにある.そのためには,映像のセマンティクスばかりでなく,情動的要因の取り扱いは極めて重要である.例えば,映像シーンが引き起こす感情をとらえることができれば,人をよりひきつけるような要約を生成したり,感情の好みも合わせて映像を検索したりすることが可能になる.本論文では,この映像内容の情動解析という新しい課題に取り組み,そのモデリング技術を中心として技術的な解決手法を提案,評価し,応用までも論じたものである.

第1章は,「Introduction(序論)」であり,研究の背景,本論文の構成について述べている.情動的な情報処理に関しての取り組みを概観している.

第2章は,「Degree-of-Edit : A Content-based Ranking Measure for Interest-Oriented User Generated Video Search (Degree-of-Edit: ユーザ生成映像の興味に基づいた検索のための内容に基づくランキング尺度)」と題し,ユーザ生成映像(UGV)の新しいランキング尺度Degree-of-Edit (DoE) について論じている.インターネット上の膨大な量に及ぶUGVを検索するために通常は再生回数や投稿日時が用いられているが,それらの指標は映像内容を反映していない.ユーザがより興味をもつと推察される映像を,映像と音響の内容を反映した編集の度合いに基づく新しい尺度としてのDoEを提案した.70,000以上のUGVを用いた実験を通して,ユーザスタディを行い,その有効性を示した.

第3章は,「Attractive Face Keyframe Extraction based on Facial Parameters(顔のパラメータに基づく魅力的なキーフレームの抽出)」と題する.ホームビデオから印象に強いキーフレームを抽出する処理について論じており,映像中の人の顔の数,大きさ,位置という構図的な要因や笑顔という情動的な要因を利用して,よいキーフレームのランキングを行った.ユーザスタディにより,ユーザの作成したランキングとの比較評価をし,有効性を確認している.

第4章は,「Joyful, Sad, and Exciting Video Segments Extraction based on Emotional Audio Event Detection (感情的なオーディオイベントの検出に基づく喜び,悲しみ,興奮のビデオセグメントの抽出)」と題する.PleasureとArousalが人の感情の大きな二つの要因であり,前者に関連すると悲しみ,後者に関連するの検出を行った.低次音響特徴量を用いて,一般化状態空間モデルにより,笑い声や大声といった感情的なオーディオイベントを検出した後,感情の分類を行った.UGVに対しての評価を行い,73.3%の精度を得た.

第5章は,「Affective Scene Classification based on Affective Audio-Visual Words and Latent Topic Driving Modeling (情動的なオーディオビジュアルワードと潜在トピック駆動モデルに基づく情動的シーン分類)」と題し,映画シーンをユーザに起こる感情(8感情)に分類することを行った.まず,特徴抽出としては,感情に特化したオーディオビジュアルワードを提案した.分類に関しては,映像内容から駆動される潜在的トピック駆動モデルを導き,シーンごとに動的に変化する感情のモデル化を行った.24の映画から切り出した206の映像クリップを用い,16人の被験者に対する実験を通じて,その有効性を検証した.

第6章は,「Vid2Trailer: Automatic Generation of Emotionally Impactful Film Trailers (Vid2Trailer: 感情的にインパクトの大きな映画予告編の自動生成)」と題して,情動を考慮した映画の要約について論じている.ショットの切り替えに伴うインパクトを提案し,前章で論じた感情分類結果に合わせて,ロゴやテーマ音楽といったシンボリックな要素を合わせて用い,インパクトを最大にするようにシーンの接続を行うことで,要約の生成を行った.ユーザスタディによりその有効性の検証を行っている.

第7章は,「Conclusions(結論)」であり,本論文での成果をまとめるとともに,今後の課題について言及している.

以上これを要するに,本論文では,映像内容解析の新しい課題である情動解析に取り組んだものであり,映像シーンに対する動的な情動モデルによる感情分類を示し,さらに,感情を考慮してインパクトを最大化する要約の生成,映像内容への興味を考慮した検索のためのランキング,オーディオからの情動イベントの検出といった一連の課題について論じたものであり,電子情報学上貢献するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク