学位論文要旨



No 115144
著者(漢字) 朴,珉徹
著者(英字) Park,MinChul
著者(カナ) パク,ミンチョル
標題(和) 知的画像符号化における動き解析とその応用に関する研究
標題(洋) A Study on Motion Analysis and Its Applications for Model-Based Image Coding Scheme
報告番号 115144
報告番号 甲15144
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4639号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 原島,博
 東京大学 教授 今井,秀樹
 東京大学 教授 石塚,満
 東京大学 教授 池内,克史
 東京大学 教授 相田,仁
 東京大学 助教授 相澤,清晴
内容要旨

 本論文は、「A Study on Motion Analysis and Its Applications for Model-Based Image Coding Scheme(知的画像符号化における動き解析とその応用に関する研究)」と提し、知的画橡符号化にビデオ索引と検索、ヒューマンコンピュタインタフェース、インターネット、電子透かし技術を取り入れ、顔動画像に対してより安全なインタラクティブ通信を実現するための基礎検討を行い、それらを可能とするアルゴリズム開発を目的として、知的符号化方式の分析過程において主な課題である動き解析を中心に基礎から応用にわたる研究成果を論じている。全体で7章からなり、英文で書かれている。

 第1章は「Introduction(序論)」と提し、本研究の背景・目的・構成について述べている。従来知的画像符号化における課題と現在、盛んに研究されているビデオ索引と検索、ヒューマンコンピュタインタフェース、インターネット、電子透かし技術などが知的画像符号化とは統合されていないことや統合の必要性を指摘することにより、本論文の背景と目的を明らかにしている。

 第2章は「Face Detection and Segmentation(顔の検出と領域分割)」と提し、従来の動き推定手法が連続的な動きを中心としていることに対して不連続な動きや初期化が必要とされる状況を想定し、ビデオ索引と検索分野でよく用いられている検出と領域分割手法を動き推定に取り入れ、動画像シーケンスにおける動き解析手法を提案している。検出された顔領域は他の領域と領域分割され、超低速ビートレート通信を目的とした動顔画像符号化にも用いられる。また、検出された顔と顔部品は楕円などの簡単な形状で表わし、低次元レベルでのシーン記述ができる。領域分割された口領域から特徴点を抽出することにより、ワイヤフレームモデルの自動整合ができる。検出と領域分割手法を動き解析に用いることで動き解析を含むより多様な処理が可能となること示している。

 第3章は「Facial Motion Estimation(フェイシャル動きの推定)」と提し、連続的な動きを持つ顔動画像シーケンスを対象としている。知的画像符号化では、グレイスケールの画像に対し、顔の3次元ワイヤフレームモデルと グラディエント拘束式を用いた手法が主に使われている。しかし、これらの手法では、推定誤差の蓄積、肌色、眼鏡、化粧などに対応の問題が生じる。そこで2次元入力画像と整合された3次元ワイヤフレームモデルに対する情報を持つ参照フレームを新たに定義し、動き推定に導入することでこれらの問題の解決を図っている。参照フレームの特徴は、すでに3次元ワイヤフレームモデルを動かし、顔画像をテクスチャマッピングすることにより、様々なポーズと表情を持つ画像を作り出すことができる。この性質を推定に用いることで、よりロバーストながら、かつ従来の問題点を解決することができる。また、参照フレームを動き推定に用いることで2人の顔が部分的に重なる場合でもそれぞれの顔に対し、動き推定を行うことが可能になる。提案したアルゴリズムが有効であることをシミュレーションで確認している。

 第4章は「Recognition of Facial Gestures(フェイシャルゼスチャの認識)」と提し、推定された動きパラメータを用いて一つのまとまりの動作として認識することを論じている。これにより、知的画像符号化での分析方法がヒューマンコンピュタインタフェースでも有効に使われ、様々な分野への応用が可能でことを示している。k-群集化アルゴリズムとk-最近傍法を用いて動きパラメータから観察シンボルを生成、隠れマルコフモデルへ入力し、一つのまとまりの動作として認識する。これらの処理をシミュレーションに基づいてその有効性を明らかにしている。

 第5章は「Synthesis of Facial Motion(フェイシャル動きの合成)」と提し、知的画像符号化における合成が従来より、インタラクティブ性が高く、かつ3次元的な顔画像合成ができることを論じている。知的画像符号化では、入力顔動画像から動きパラメータを求め受信側へ伝送する。受信側では、伝送されてきた動きパラメータとVRMLを用いて3次元的に顔動画像系列を合成する。これにより、従来の手法に比べてインタラクティブ性が高く、かつ3次元的な顔画像合成が可能となる。また、異なる解像度を持つ3次元顔モデルから新たな奥行きを持つ3次元顔モデルを生成できることをシミュレーションで確認している。

 第6章は「Data-hiding for Facial Image and Motion Parameters(フェイシャル画像と動きパラメータのためのデータハイディング)」と提し、一枚の顔画像を送り、その顔画像からさまざまな表情を合成する知的画像符号化やMPEG-4の顔アニメーションなどで、考えられるデータハイディグ技術について論じている。非剛体の特性を持つ顔の領域(額)にID情報を埋め込み、一般的に考えられる攻撃の他、表情合成などでも耐えられる、よりロバストなアルゴリズムを提案し、その手法が有効であることをシミュレーション結果に基づいて明らかにしている。

 第7章は「Conclusion(結論)」であり、本研究で得られた成果をまとめると共に、将来の展望について述べている。

審査要旨

 本論文は、「A Study on Motion Analysis and Its Applications for Model-Based Image Coding Scheme(知的画像符号化における動き解析とその応用に関する研究)」と題し、知的画像符号化技術にビデオ索引・検索、ヒューマンコンピュータインタフェース、インターネット、電子透かし技術などを取り入れ、顔動画像に対してより安全でインタラクティブな通信を実現するための基礎検討を行い、特に知的画像符号化方式の分析過程において重要な動き解析を中心に基礎から応用にわたる研究成果を論じたものである。全体で7章からなり、英文で書かれている。

 第1章は「Introduction(序論)」と題し、本研究の背景・目的・構成について述べている。すなわち従来の知的画像符号化技術の課題と、ビデオ索引・検索、ヒューマンコンピュータインタフェース、インターネット、電子透かしなどの周辺技術の動向をまとめ、それらの統合の必要性を指摘することにより、本論文の背景と目的を明らかにしている。

 第2章は「Face Detection and Segmentation(顔の検出と領域分割)」と題し、動画像系列からの顔領域の検出と領域分割手法を論じている。これは、従来の手法が主に連続的な動きを対象にしていたのに対して、不連続な動きやシーンチェンジがある場合をも想定した動画像処理手法であることを特徴としている。こうして検出かつ分割された顔領域は、超低速ビートレート通信を目的とした動顔画像符号化に用いられる。また、検出された顔と顔部品を楕円などの簡単な形状で表わすことにより、低次元レベルでのシーン記述ができる。さらには領域分割された口領域から特徴点を抽出することにより、ワイヤフレームモデルの自動整合ができる。このように、顔の検出と領域分割手法を動画像系列の解析に用いることにより、さまざまな応用へ向けた動画像処理が可能となることを、シミュレーションに基づいて明らかにしている。

 第3章は「Facial Motion Estimation(顔の動きの推定)」と題し、動画像系列における連続的な顔の動きの、よりロバストな推定問題を論じている。これまでの知的画像符号化では、顔の3次元ワイヤフレームモデルとグラディエント拘束式を組み合わせた手法が主に使われていた。しかし、そこでは推定誤差の蓄積があり、また肌色、眼鏡、化粧などへの対処にも問題があった。ここでは、3次元ワイヤフレームモデルを2次元入力画像に整合させて合成した参照フレームを新たに定義して、これを顔の動き推定に導入することで問題の解決を図っている。この参照フレームは、3次元ワイヤフレームモデルを入力画像と整合させて動かし、これに顔画像をテクスチャマッピングすることにより得られる。こうして様々なポーズと表情を持つ顔画像を参照フレームとして利用することで、よりロバストで、かつ従来の問題点を解決した動き推定が可能になった。また、2人の顔が部分的に重なる場合でも、それぞれの顔に対して動き推定を行うことが可能になった。

 第4章は「Recognition of Facial Gestures(顔のジェスチャーの認識)」と題し、推定された動きパラメータを用いて、まとまりのある一連の動作すなわちジェスチャーを認識することを論じている。これにより、知的画像符号化での分析方法がヒューマンコンピュータインタフェースをはじめとする様々な分野への応用が可能であることを示している。具体的な処理としては、k-群集化アルゴリズムとk-最近傍法を用いて動きパラメータから観察シンボルを生成して、隠れマルコフモデルへ入力し、動き全体を一つのまとまりの動作として認識する。本章では、コンピュータシミュレーションによりこれらの処理が有効であることを明らかにしている。

 第5章は「Synthesis of Facial Motion(顔の動きの合成)」と題し、知的画像符号化において、従来よりもインタラクティブ性が高く、かつ3次元的な顔画像合成をも可能とする手法を論じている。知的画像符号化では、入力顔動画像から動きパラメータを求め、それを受信側へ伝送する。受信側では、伝送されてきた動きパラメータとインターネットの3次元ブラウザVRMLを用いて3次元的に顔動画像系列を合成する。これにより、従来の手法に比べてインタラクティブ性が高く、かつ3次元的な顔画像合成が可能となる。また、異なる解像度を持つ3次元顔モデルから新たな奥行きを持つ3次元顔モデルを生成できることをシミュレーションで確認している。

 第6章は「Data-hiding for Facial Image and Motion Parameters(顔画像と動きパラメータへのデータ埋め込み)」と題し、一枚の顔画像を送り、その顔画像からさまざまな表情を合成する知的画像符号化やMPEG-4の顔アニメーションなどに有効なデータ埋め込み技術について論じている。すなわち非剛体の特性を持つ顔の領域(例えば額)に個人認証情報を埋め込み、一般的な攻撃の他、表情などの画像変形にも耐えられる、よりロバストなアルゴリズムを提案し、その手法が有効であることをシミュレーション結果に基づいて明らかにしている。

 第7章は「Conclusion(結論)」であり、本研究で得られた成果をまとめると共に、将来の展望について述べている。

 以上を要するに、本論文は、知的画像符号化技術の重要課題である動き処理を中心に、顔画像系列からの顔領域の検出と分割、動きの推定、ジェスチャーの認識、動きの合成などに関して基礎的な検討を加えて、その実現性を高めるとともに、インターネット技術や電子透かし技術などを取り入れ、顔動画像に対してより安全でインタラクティブな通信を実現するための研究を行ったもので、今後の電子情報通信工学の進展に寄与するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク