学位論文要旨



No 111146
著者(漢字) ロバート, スー・ポーチェン
著者(英字) Robert, Hsu P.
著者(カナ)
標題(和) インタラクティブ映像環境へ向けた動画像構造化の研究
標題(洋) Structured Representation of Moving Images for Realizing Interactive Video Environment
報告番号 111146
報告番号 甲11146
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3390号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 原島,博
 東京大学 教授 高木,幹雄
 東京大学 教授 今井,秀樹
 東京大学 教授 坂内,正夫
 東京大学 助教授 金子,正秀
 東京大学 助教授 相澤,清晴
内容要旨

 本論文は「インタラクティブ映像環境へ向けた動画像構造化の研究」と題し、映像環境の新しいメディア処理として動画像に構造化を加えた動画像の符号化編集、検索、表示を目指して、関連する動画像処理に関する研究を検討する。

 第3章は「動画像の構造的表現」と題し、画像中の1つの物体を1つの要素と考えて時間軸方向に統合し、その要素を階層的にまとめることによって動画像を構造てきに表現することを試みている。構造化動画像表現は、シーケンス、ショット、エピソード、あるいはチューブなどの異なる記述単位で構成される。最も基本となる動恵像要素はチューブであり、同一の動きイベントを持つ単一のオブジェクトのシーンを表現する。物理的には、チューブは変形する物体の輪郭を時間ん方向に追跡した時空間立体からなる。単一フレームのチューブは最も小さい意味を持つエンティティである。そこで、動きの不連続性とテクスチャの変化情報を時空間曲面の上に表現することを理論的に検討する。第4章は「動画像の構造化」と題し、第3章で論じた動画像の構造的表現をもとに静止画像の領域分割と動画像の時間分割する方法を論じ、あわせてその分析結果を時空間的に統合することによって動画像の構造化を試みている。即ち、分析された動画像のシーケンス、ショット、エポソード、チューブなどを要素として、その情報を階層的に動画像を構造化することを試みている。第5章は「tubeに基づく動画像の符号化」と題する。従来の方法では、フレームごとに符号化を行なう方法では符号量削減に関しては限界に達しており、新たに時間軸方向についての圧縮を考えた符号化が必要である。そこで、本論文では画像中の1つの物体を1つの要素と考えて時間軸方向に統合し、それぞれについての動き、テクスチャパターンとその変化情報としてとらえることで動画像の符号化を試みている。

 第7章は「動画像からの頭部と身ぶりの運動追跡」と題し、カルマンフィルタを用いてオプティカルフローから3次元構造や頭部や腕の動きをより安定に復元する方法を提案する。拡張カルマンフィルタ(Extended Kalman filter;EKF)は測定誤差や不安定性を明示的にモデリングできることから、動きからの構造復元においてロバスト性が向上することが示されている。我々が提案する手法においては、さらに、(1)特徴点追跡の領域を頭や腕のスケルトンの近傍に制限すること、(2)オプティカルフローの信頼性関数としてオプティカルフローの測定誤差を定式化すること、(3)オクルージョンが起こっている特徴点では3次元運動から推定されるオプティカルフローをEKFに採り入れること、(4)推定された構造の2次元への投影像上の特徴点を追跡するフィードバックループにより特徴点の追跡誤差を補償すること、の4つの点を導入し、再帰的な推定のロバスト性をさらに高めている。

図1:Thesis overview

 第8章は「任意の視点からの実画像シーンの表現」と題し、3次元構造情報を媒介しないで画像間のピクセルの対応関係を分析し、これをもとに多眼画像の再合成あるいは補間等をおこなう新しい方法を検討する。最近、隣接する視点からの画像を用いて、その視点間の画像を近似するための多くのアプローチが提案されている。

審査要旨

 本論文は 「Structured Representation of Moving Images for Realizing Interactive Video Environment(インタラクティブ映像環境へ向けた動画像構造化の研究)」と題し、動画像の構造的な表現に基づく符号化、編集、検索、表示などの技術の確立を目指して、関連する動画像処理に関する研究をまとめたものであって、9章からなり、英文で記述されている。

 第1章は「序論」であって、本研究の目的と研究の意義について述べている。すなわち、インタラクティブな映像環境を実現するためには、動画像のもつ時空間的な構造を十分に活用し、これを動画像処理へ結びつけることが重要であることを論じ、研究の目的を明らかにするとともに、本論文の構成について述べている。

 第2章は「関連する研究動向」と題し、インタラクチィブ映像環境において動画像を処理するために用いられている各種の手法の分類と概略を述べ、動画像の編集、検索、符号化に関連する研究課題について考察している。また、動画像処理における3次元物体の表示、追跡の研究の現状について述べている。

 第3章は「動画像の構造的表現」と題し、画像中の1つの動く物体を動画像系列の構成要素と考えて、これを時間軸方向に統合してさらに階層的にまとめることによって動画像を構造的に表現することを試みている。また、動きの不連続性とテクスチャの変化情報を時空間曲面上に表現することを理論的に検討している。

 第4章は「時空間領域分割」と題し、第3章で論じた動画像の構造的な表現をもとに、静止画像を空間的に領域分割する方法と動画像を時間的に分割する方法を詳細に論じ、あわせてその分析結果を時空間的に統合することによって動画像を構造化するための具体的な手法を示している。その結果、tube、Shot、episode、sequenceなどを要素とする動画像の階層的な構造化が実現されている。

 第5章は「Tubeに基づく動画像の符号化」と題し、動画像の時空間構造表現に基づいた圧縮符号化法について述べている。すなわち、フレームごとにその瞬時的な変化量のみに着目して符号化を行なう従来の方法では符号量削減に関して限界があることを指摘し、新たに時間軸方向の構造を考慮した符号化が必要であることを論じている。さらに、画像中の1つの動物体を1つの要素と考えて時間軸方向に統合することによって得られたそれぞれのtubeについて、その動きとテクスチャパターンの変化を情報として符号化する動画像の圧縮法を検討している。

 第6章は「動画像の内容に基づく検索と編集」と題し、動画像の構造化に基づいた動画像データベースの考え方を述べている。また、離散コサイン変換符号化された圧縮データから主成分分析の手法を用いて直接的に画像を検索することを試みている。

 第7章は「動画像からの頭部と身振りのロバストな運動追跡」と題し、身振り手振りの認識をともなうインタラクティブな映像環境の構築を目指して、動画像のオプティカルフローから人体の3次元構造、頭部や腕の動きなどをより安定に復元する方法を提案している。すなわち、動きからの構造復元を安定におこなうためにカルマンフィルタ処理を導入し、さらにフィードバックループ、オプティカルフローなどの信頼性関数を改良することによって、再帰的な推定のロバスト性を高めている。

 第8章は「3次元カメラアレイの補間」と題し、3次元構造情報を媒介しないで画像間の画素の対応関係を分析し、これをもとに多眼画像の再合成あるいは補間などをおこなう新しい方法を検討している。

 第9章は「結言」であって、本研究の成果と意義について述べるとともに、今後の発展の方向を示している。

 以上これを要するに、本論文は将来におけるインタラクティブな映像環境の構築を目指して、動画像情報を時空間的に構造化することを検討し、時空間構成要素に着目した符号化法などを新たに提案するとともに、構造的な表現に基づく動画像の符号化、編集、検索、表示に関連する技術を体系的に論じたものであって、情報通信工学において寄与するところが少なくない。

 よって著者は東京大学大学院工学系研究科における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク