本論文は 「Structured Representation of Moving Images for Realizing Interactive Video Environment(インタラクティブ映像環境へ向けた動画像構造化の研究)」と題し、動画像の構造的な表現に基づく符号化、編集、検索、表示などの技術の確立を目指して、関連する動画像処理に関する研究をまとめたものであって、9章からなり、英文で記述されている。 第1章は「序論」であって、本研究の目的と研究の意義について述べている。すなわち、インタラクティブな映像環境を実現するためには、動画像のもつ時空間的な構造を十分に活用し、これを動画像処理へ結びつけることが重要であることを論じ、研究の目的を明らかにするとともに、本論文の構成について述べている。 第2章は「関連する研究動向」と題し、インタラクチィブ映像環境において動画像を処理するために用いられている各種の手法の分類と概略を述べ、動画像の編集、検索、符号化に関連する研究課題について考察している。また、動画像処理における3次元物体の表示、追跡の研究の現状について述べている。 第3章は「動画像の構造的表現」と題し、画像中の1つの動く物体を動画像系列の構成要素と考えて、これを時間軸方向に統合してさらに階層的にまとめることによって動画像を構造的に表現することを試みている。また、動きの不連続性とテクスチャの変化情報を時空間曲面上に表現することを理論的に検討している。 第4章は「時空間領域分割」と題し、第3章で論じた動画像の構造的な表現をもとに、静止画像を空間的に領域分割する方法と動画像を時間的に分割する方法を詳細に論じ、あわせてその分析結果を時空間的に統合することによって動画像を構造化するための具体的な手法を示している。その結果、tube、Shot、episode、sequenceなどを要素とする動画像の階層的な構造化が実現されている。 第5章は「Tubeに基づく動画像の符号化」と題し、動画像の時空間構造表現に基づいた圧縮符号化法について述べている。すなわち、フレームごとにその瞬時的な変化量のみに着目して符号化を行なう従来の方法では符号量削減に関して限界があることを指摘し、新たに時間軸方向の構造を考慮した符号化が必要であることを論じている。さらに、画像中の1つの動物体を1つの要素と考えて時間軸方向に統合することによって得られたそれぞれのtubeについて、その動きとテクスチャパターンの変化を情報として符号化する動画像の圧縮法を検討している。 第6章は「動画像の内容に基づく検索と編集」と題し、動画像の構造化に基づいた動画像データベースの考え方を述べている。また、離散コサイン変換符号化された圧縮データから主成分分析の手法を用いて直接的に画像を検索することを試みている。 第7章は「動画像からの頭部と身振りのロバストな運動追跡」と題し、身振り手振りの認識をともなうインタラクティブな映像環境の構築を目指して、動画像のオプティカルフローから人体の3次元構造、頭部や腕の動きなどをより安定に復元する方法を提案している。すなわち、動きからの構造復元を安定におこなうためにカルマンフィルタ処理を導入し、さらにフィードバックループ、オプティカルフローなどの信頼性関数を改良することによって、再帰的な推定のロバスト性を高めている。 第8章は「3次元カメラアレイの補間」と題し、3次元構造情報を媒介しないで画像間の画素の対応関係を分析し、これをもとに多眼画像の再合成あるいは補間などをおこなう新しい方法を検討している。 第9章は「結言」であって、本研究の成果と意義について述べるとともに、今後の発展の方向を示している。 以上これを要するに、本論文は将来におけるインタラクティブな映像環境の構築を目指して、動画像情報を時空間的に構造化することを検討し、時空間構成要素に着目した符号化法などを新たに提案するとともに、構造的な表現に基づく動画像の符号化、編集、検索、表示に関連する技術を体系的に論じたものであって、情報通信工学において寄与するところが少なくない。 よって著者は東京大学大学院工学系研究科における博士の学位論文審査に合格したものと認める。 |