学位論文要旨



No 128468
著者(漢字) ファン ヴェトクォク
著者(英字)
著者(カナ) ファン ヴェトクォク
標題(和) 画像・映像セグメンテーションにおける色情報の記述方式に関する研究
標題(洋) Formulating Color Information for Image and Video Segmentation
報告番号 128468
報告番号 甲28468
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第379号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 佐藤,洋一
 東京大学 准教授 苗村,健
 東京大学 教授 石塚,満
 東京大学 教授 池内,克史
 東京大学 教授 相澤,清晴
 東京大学 准教授 上條,俊介
内容要旨 要旨を表示する

Image segmentation is a technique for extracting a foreground region in a picture or photograph from its background. It is a critical early step in most computer vision applications in domains such as object recognition, image editing, surveillance and human-computer interaction. This dissertation focuses on the problems of image and video segmentation based on color information. I consider the segmentation problem as a binary labeling problem of minimizing an energy function, and propose several methods for formulating color information in the energy function. My proposed formulations cover different types of energy terms, including the pixel-wise term, the pairwise term and the domain-wise term. Each contribution is proved to be effective for a certain aspect of segmentation problems.

My first research work addresses the problem of online video segmentation and matting. My method is based on a parallel process of two stages: bilayer segmentation and alpha matting. I propose an accurate bilayer segmentation method for extracting the foreground region from the background, using a new pixel-wise formulation based on spatio-temporal color coherence and a local classifier using the propagation of color likelihoods. The proposed local likelihood proves to be very effective for correcting segmentation errors caused by global models.

My second work targets the problem of segmenting an object of interest from a given bounding layer. My strategy is to optimize the trade-off of making the foreground region as large as possible while keeping the similarity between the foreground and background regions as small as possible. This similarity is formulated by using a new pair-wise term evaluating the similarities of distant pixel pairs. With this formulation, I generate an energy function that is expressed purely in terms of unknown segmentation and can be optimized using only one max-flow calculation.

The third work relates to the problem of image segmentation with a reference distribution. The input distribution does not need to be precise, and is used as a guide to infer the latent distribution and its consistent region. My key observation is that the latent distribution resembles the distribution of the consistent region but is distinct from the distribution of the complement region. I state the problem as the minimization of an energy function consisting of domain-wise terms which evaluate global similarities and dissimilarities using the Bhattacharyya distance. I also propose a novel iterative scheme for jointly optimizing distribution and segmentation.

Differences in performance among these works can basically explain the different characteristics of each type of energy terms. Understanding the different behavior of each type is particularly important for solving similar segmentation problems.

審査要旨 要旨を表示する

本論文は,「Formulating Color Information for Image and Video Segmentation(画像・映像セグメンテーションにおける色情報の記述方式に関する研究)」と題し,画像セグメンテーションにおけるエネルギー最適化の問題について議論し,特に,3つの異なるエネルギー項(pixel-wise項,pairwise項,domain-wise項)を用いて画素間の関係を記述する数学的モデルを提案し,様々なセグメンテーション問題への応用を検討したものであり,全体で6章からなり,英文で書かれている.

第1章は「Introduction(序論)」であり,エネルギー最適化問題の概要と画像セグメンテーションとの関係について論じ,本論文の背景と目的を明らかにしている.

第2章は「Related Works(関連研究)」であり,画像セグメンテーションにおける色情報の記述方式について,(1)画素ごと(pixel-wise),(2)画素組の関係(pairwise),(2)全画素の関係(domain-wise)という3つの観点から関連研究を概観し,本論文の位置付けを明らかにしている.

第3章は「Online Video Segmentation and Matting with Real-time Speed(リアルタイムな動画像セグメンテーションとマッティング)」と題し,前景・背景セグメンテーションに基づく,リアルタイムで動作するビデオマッティング手法を提案している.前景と背景を精度良く分離するセグメンテーションを行うために,時空間の相関とローカルな色尤度を記述する新しいpixel-wise項を導入し,セグメンテーションの結果を使ってアルファマッティングを行い,ダウンサンプリングと初期値推定を導入することでBayesianマッティングを改善し,品質を保ったまま約5倍の高速化を達成している.結果として,ビデオのセグメンテーションとマッティングの両方をほぼリアルタイムに実行できている.

第4章は「Segmentation from Bounding Layer using Distant Pixel Similarities(離れた画素間の類似度を用いた外包形状入力からの画像セグメンテーション)」と題し,物体の大雑把な外包形状を入力として,画像中の物体領域をセグメンテーションする問題を取り組んでいる.この手法では,アピアランスモデルを使わない代わりに,離れた画素間の関係を考慮する新しいpairwise項を導入し,一度のグラフカット計算だけで最適なセグメンテーションを得ている.多数の画像を用いた実験により,高速度で高精度のセグメンテーションができることを確認した.さらに,この手法の特徴として,外包形状のわずかな変化に伴うグラフモデルの変化が小さいため,動的グラフカットが有効に適用できることが挙げられる.本章では,この特徴を生かしたsaliencyに基づく効率的な自動セグメンテーションへの応用についても述べている.

第5章は「Segmentation from Reference Distribution using Global Similarities(グローバルな類似度を用いた参照色分布入力からの画像セグメンテーション)」と題し,参照色分布を入力として,画像中の対応領域を抽出する問題に取り組んでいる.画像から特定の領域を切り出す画像セグメンテーションの問題において,画素単位に定義される尤度の代わりに,領域全体に対して定義される色分布の類似性を用いる手法が近年に提案されているが,抽出対象の正確な色分布が与えられることが前提とされたため,適用領域は極めて限定されていた.本章では,この仮定を緩めるため,与えられた色分布が必ずしも正確ではなくても,それを手がかりに真の色分布と画像中の対応領域を同時に推定する手法を提案している.この研究の貢献は,色分布同士のBhattacharyya距離によって定義される新しいdomain-wise項を導入したエネルギー関数を考慮し,補助関数を用いてグラフカットで近似的に最小化するアルゴリズムを示したことにある.本章では,外包矩形を入力とする物体領域抽出を例として議論するが,提案手法は背景差分やco-segmentationにも適用可能である.

第6章は「Discussion and Conclusion(検討とまとめ)」であり,本論文の主たる貢献をエネルギーオーダーの観点から比較してまとめ,今後の課題と展望について述べている.

以上を要するに,本論文は,画像セグメンテーションにおけるエネルギー最適化の問題について議論し,画素間の色情報を記述する有効な数学的モデルとして3つの異なるエネルギー項(pixel-wise項,pairwise項,domain-wise項)の導入を提案するとともに,様々なセグメンテーション問題への応用を検討したものであって,コンピュータグラフィックス・コンピュータビジョンなど,電子情報学の各分野の今後の進展に寄与するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク