学位論文要旨



No 125373
著者(漢字) 劉,玉宇
著者(英字)
著者(カナ) リュウ,ギョクウ
標題(和) 同期性に基づく音と映像の統合解析
標題(洋) Synchrony-based Audiovisual Analysis
報告番号 125373
報告番号 甲25373
学位授与日 2009.09.28
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第255号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 相澤,清晴
 東京大学 准教授 佐藤,洋一
 東京大学 教授 廣瀬,啓吉
 東京大学 准教授 上條,俊介
 東京大学 准教授 苗村,健
 東京大学 准教授 山崎,俊彦
内容要旨 要旨を表示する

This thesis presents a computational framework to jointly analyze auditory and visual information. The integration of audiovisual information is realized based on synchrony evaluation, which is motivated by the neuroscience discovery that synchrony is a key for human beings to perceive across the senses of different modalities. The works in this thesis focus on answering two questions: how to perform and where to apply this audiovisual analysis with synchrony evaluation. To answer the first question, we develop novel effective methods to analyze the audiovisual correlation, and perform a classification and an experimental comparison of the existing techniques, including the ones we developed. Since this is the first work that classifies and experimentally compares the methods of this field, it supplies a basis for designing algorithms to computationally analyze the audiovisual correlation. To answer the second question, we apply audiovisual correlation analysis to solve three different problems. The first problem is the detection of a speaker face region in a video, whose previous solutions either require special devices like microphone array or supply only highly fragmental results. Assuming speaker is stationary within an analysis time window, we introduce a novel method to analyze the audiovisual correlation for speaker using newly introduced audiovisual differential feature and quadratic mutual information, and integrate the result of this correlation analysis into graph cut-based image segmentation to compute the speaker face region. This method not only achieves the smoothness of the detected face region, but also is robust against the change of background, view, and scale. The second problem is the localization of sound source. General sound source is diverse in types and usually non-stationary while emitting sounds. To solve this problem, we develop an audiovisual correlation maximization framework to trace the sound source movement, and introduce audiovisual inconsistency feature to extract audiovisual events for all kinds of sound sources. we also propose an incremental computation of mutual information to significantly speed up the computation. This method can successfully localize different moving sound sources in the experiments. The third problem is the recovery of drifted audio-to-video synchronization, which used to require both special device and dedicated human effort. Considering that the correlation reaches the maximum only when audio is synchronized with video, we develop an automatic recovery method by analyzing the audiovisual correlation for a given speaker in the video clip. The recovery demonstrates high accuracy for both simulation and real data. While the theoretical justification and experimental justification are performed independently, this thesis taken as a whole lays a necessary groundwork for jointly analyzing audiovisual information based on synchrony evaluation.

審査要旨 要旨を表示する

本論文は「Synchrony-based Audiovisual Analysis」(同期性に基づく音と映像の統合解析)と題し、映像中の話者領域抽出、移動音源の位置特定、音と映像間の同期復元の3つの問題に対し、音と映像の間の同期性に基づき統一的な解決の枠組みを示したものであり、英文で記され全体で6章により構成されている。

第1章「Introduction」(はじめに)では、本研究の背景と目的について論じた後、本研究における2つの主要な論点、すなわち音情報と映像情報との関係を如何にして解析するかという点と、その解析にもとづき映像中の音源特定や音と映像間の同期復元の問題を如何にして解決するかという点についてまとめている。

第2章「Preliminaries」(準備)では、当該研究分野における本研究の位置づけについて整理した上で、音と映像の相関解析に関してこれまでに提案されている特徴量および相関指標について詳説し、本研究における相関解析手法の特長についてまとめている。

第3章「Face region segmentation of a stationary speaker」(映像中の静止話者領域の抽出)では、音と映像の相関解析により映像中の話者領域を自動で切り出す手法を紹介している。まず、従来の音と映像の相関分析にもとづく音源位置推定技術に共通する、断片化された領域しか得られないという課題を指摘した上で、グラフカット最適化による領域分割に音と映像の相関分析を組み入れるという着想にもとづいた解決方法を提案している。複雑な動きを伴う背景中の人物の映像を用いた実験により提案手法の有効が示されている。

第4章「Visual localization of a non-stationary sound source」(移動音源位置の特定)では、音源が移動する場合への拡張について紹介している。音源が移動する場合、音と映像の相関を正しく計算することができないため、既存の音と映像の相関分析にもとづく音源位置推定技術では移動音源を扱えないという問題が存在した。これに対し、本研究では音と映像の相互情報量の増減を手掛かりに対象の移動経路を探索するという新たなアプローチを提案し、移動する音源であっても精度良く位置を推定することを可能としている。また、相互情報量を逐次的に計算する方法を導入することにより、経路探索の計算コストを大幅に削減することを実現している。

第5章「Recovery of audio-to-video synchronization」(音と映像の同期の復元)では、映像の圧縮符号化やネットワークによる伝送により音と映像の同期が一旦ずれてしまうと同期を復元するのは容易ではないという問題に対し、音と映像の間の同期を自動で復元する手法を提案している。一般に、音と映像の同期ずれを生じた場合、音の増減変化と映像の動きのタイミングがずれるため音と映像の相互情報量が低下するということに着目し、音と映像の相互情報量を最大化する同期ずれ量を推定することにより、音と映像の同期ずれの補正を実現している。さまざまな映像を用いた実験により、提案手法により映像規格として定められている同期誤差範囲内での同期復元が可能なことが確認されている。

第6章「Conclusions」(まとめ)では、全体を総括し、今後の課題と展望について述べている。

以上これを要するに、本論文では、映像中の話者領域抽出、移動音源の位置特定、音と映像間の同期復元というマルチメディア情報処理における3つの重要な課題に対し、音と映像という異なるモダリティ間の相関分析にもとづいた解決方法を提案し、シミュレーションおよび実データを用いた実験により各手法の有効性を示したものであり、電子情報学上貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク