学位論文要旨



No 115141
著者(漢字) 谷田部,智之
著者(英字)
著者(カナ) ヤタベ,トモユキ
標題(和) ネットワーク環境における対話型映像情報システムに関する研究
標題(洋)
報告番号 115141
報告番号 甲15141
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4636号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 池内,克史
 東京大学 教授 安達,淳
 東京大学 教授 喜連川,優
 東京大学 教授 相田,仁
 東京大学 助教授 森川,博之
内容要旨

 情報化社会の進展にともない、情報伝違、情報通信における映像メディアの重要性がますます高まりつつある。放送のディジタル化による多チャンネル化、またインターネットの普及は、手に入れられる映像コンテンツを爆発的に増やし、一方、コンピュータの性能向上、安価なメモリやディスクにより、ディジタル映像をコンピュータで扱う事を可能にしつつある。特に、次世代のディジタル放送や映像コミュニケーション環境においては、単に映像をそのまま見せるのではなく、映像情報の質的向上をも可能とする多種多様なサービスが要請されよう。

 本論文では、高度で柔軟な映像利用方式の実現を目指す立場から、映像処理技術およびネットワーク環境における映像およびその付随情報の管理機構について論じたものである。具体的には、映像のもつ時空間的な構造を利用した映像記述モデルを明確にし、この映像記述モデルを用いた映像データベースの構築、柔軟な対話型映像情報サービス方式の提案および実装、あわせて将来の映像メディア/パーソナルメディア環境のあり方について論じたものである。すなわち、次世代のディジタル放送およびネットワーク環境における高度で柔軟な映像処理・利用に向けで、

 ・どのような映像の構造的記述が必要となるのか?

 ・どのように映像の構造的記述を利用するのか?

 ・どのように映像の構造的記述を管理するのか?

 という問題を解決することを目的としたものである。以下、本論文の構成に沿いながら各項目を説明する。

 第2章では、映像の構造的記述方式に関する基礎的検討を行い、それら記述を利用した映像データベースを構築する手法について概観している。まず、多量の映像を高度で柔軟に利用をするためには、映像データベースを生成する必要があることを述べ、その実現のために、映像の構造的性質を利用し、時間軸を含むn次元の構造モデルあるいは映像解析に基づく特徴量モデルを明確にする。すなわち、映像中に含まれる3次元形状を有するもの(Video Object)を「3次元形状+3次元運動情報+3次元位置情報」という3次元構造モデルにより記述できること、また、一方で、映像から得られる特徴量を用いたモデルにより映像内容を記述できることを論じている。これらを映像情報システムに利用するための基盤技術として考祭し、本論文の方向性を示す。

 続く第3章から第6章では、映像構造を用いて動画像映像を自動的に解析することにより映像データベースを生成する手法について論じている。一般な映像の構造は各フレームの特徴量により定義することができるが、意味的な分類・インデキシングが必要である。そのためには、映像内容に依存したモデルを用いた映像解析を行っている。

 第3章では、映像をオブジェクトを単位にデータベース化を行う手法を示している。一般的な映像をデータベース化するためには、データベース構造を考慮する必要がある。そこで、映像をショットごとに分類するだけではなく、フレーム中に含まれるオブジェクトをベースとした、映像オブジェクトデータベースを提案をしている。そのため、オブジェクトの抽出・追跡する手法およびオブジェクトの関係を分析手法を示している。また、映像には個々のオブジェクトだけではなく、ある時間単位で意味をもつイベント(Event)もある。それらをまとめたデータベースにより、映像を多層的に構造化できる。

 第4章では、新たな映像記述方式として、個々のオブジェクトあるいは、イベントをユーザからの対話を利用して記述する手法を提案している。映像解析における困難な点は、得られた結果を意味的に判断しなくてはならないことである。内容に基づく記述(authoring)として、ユーザによる記述を採用する。全てのオブジェクトに対する記述は困難であるため、それを解決するために、映像オブジェクトデータベースを用いた手法を示す。こうした機能を基に、ハイパーメディア映像としての機能も提供できるようになる。

 第5章では、対話型映像情報システムの一実装例として、ドラビングショットと呼ぶ車載カメラで撮影された映像を対象としたシステムを示す。対象とした映像には、道路に沿って多数の建物が映っており、それらをオブジェクトとしたデータペースを生成する。精度よく解析を行うためには、映像内容に合わせたモデルが必要であり、ここでは、ディジタル地図をモデルとすることで、十分あ精度の解析ができることを示す。

 第6章では、第3章から第5章における検討された記述方式を応用し、別の実装例として、スポーツ映像のような全体の3次元構造が既知とする映像を扱う。この場合には、全空間および各オブジェクトを定義する事が可能であるが、対話型システムとしての機能を満たす程度の構造化を行う。ここでは、オブジェクトに関する記述(Annotation)と、オブジェクト抽出・追跡技術により対応付けを行い、ユーザの必要な情報を提供できるシステムを示す。また、将来的な映像システムのあり方を示す。

 第7章では、映像のみならず、Web文書に含まれる静止画像を利用したシステムをネットワーク環境における対話型システムとしての位置付け、画像サーチエンジンについて論じる。静止画と言えども解析は意味的な難しいが、文書と同時に存在することから、それらの情報を記述として利用することが可能である。

審査要旨

 本論文は、「ネットワーク環境における対話型映像情報システムに関する研究」と題し、放送のディジタル化に向けて重要性を増している、ネットワークと放送の融合を実現する新しい発想による映像情報システムについての一連の研究をまとめたものであり、7章から構成されている。

 第1章は、「序論」であり、本研究の背景、目的について述べている。

 第2章「映像構造に基づくメディア解析」では、映像の構造的記述方式、及びそれらを利用した映像データベースを構築する手法について概説すると共に、より高度な対話型情報システムを展開する上での従来方式の限界を明らかにしている。

 第3章は、「映像オブジェクトデータベース」と題し、第2章で指摘した従来システムの限界を打破する方式として、扱う映像の粒度を細かくした映像オブジェクトを中心としたデータベースを構築するシステムを提案している。さらに、陽なオブジェクト抽出を行う方式として、実際にMPEGとして符号化された映像を用いた簡易な方式を提案し、有効性を実証している。

 第4章は、「対話型映像情報システム」と題し、新たな映像記述方式として、個々のオブジェクトあるいは、イベントをユーザからの対話を利用して記述する実用性の高い手法を提案している。映像解析における困難な点は、得られた結果を意味的に判断しなくてはならないことにある点に注目し、必ずしも陽なオブジェクト記述を行わないデータベース記述構造を用い、ネットワークを通じてのユーザによるマニュアル記述を採用している。全体方式の枠組と、システム実現のキー技術である記述の推定方式を提案すると共に、それらを実装して評価実験を行っている。

 第5章は、「地図をモデルとした対話型映像情報システム」と題し、4章での対話型映像情報システムの応用実装例として、ドラビングショットと呼ぶ車載カメラで撮影された映像を対象としたシステムを実現し、評価している。更に、ディジタル地図をモデルとすることで、より精度の高い記述の推定が可能であることを示している。

 第6章は、「対話型画像検索システム」と題し、映像のみならず、Web文書に含まれる静止画像を利用したシステムを、ネットワーク環境における対話型システムとして位置付け、従来にはながった画像データに基づくサーチエンジンとして提案し、評価実験により有効性を明らかにしている。

 第7章は「結論」であり、本研究の成果が要約されていると共に、今後の課題を明らかにしている。

 以上、これを要するに、本論文は、放送のディジタル化の流れの中で大きな期待を集めている新しいサービスの実現を可能とする対話型映像情報システムを提案、その実現方式を明らかにすると共に有効性を実証したもので、電子情報工学上貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク