情報化社会の進展にともない、情報伝違、情報通信における映像メディアの重要性がますます高まりつつある。放送のディジタル化による多チャンネル化、またインターネットの普及は、手に入れられる映像コンテンツを爆発的に増やし、一方、コンピュータの性能向上、安価なメモリやディスクにより、ディジタル映像をコンピュータで扱う事を可能にしつつある。特に、次世代のディジタル放送や映像コミュニケーション環境においては、単に映像をそのまま見せるのではなく、映像情報の質的向上をも可能とする多種多様なサービスが要請されよう。 本論文では、高度で柔軟な映像利用方式の実現を目指す立場から、映像処理技術およびネットワーク環境における映像およびその付随情報の管理機構について論じたものである。具体的には、映像のもつ時空間的な構造を利用した映像記述モデルを明確にし、この映像記述モデルを用いた映像データベースの構築、柔軟な対話型映像情報サービス方式の提案および実装、あわせて将来の映像メディア/パーソナルメディア環境のあり方について論じたものである。すなわち、次世代のディジタル放送およびネットワーク環境における高度で柔軟な映像処理・利用に向けで、 ・どのような映像の構造的記述が必要となるのか? ・どのように映像の構造的記述を利用するのか? ・どのように映像の構造的記述を管理するのか? という問題を解決することを目的としたものである。以下、本論文の構成に沿いながら各項目を説明する。 第2章では、映像の構造的記述方式に関する基礎的検討を行い、それら記述を利用した映像データベースを構築する手法について概観している。まず、多量の映像を高度で柔軟に利用をするためには、映像データベースを生成する必要があることを述べ、その実現のために、映像の構造的性質を利用し、時間軸を含むn次元の構造モデルあるいは映像解析に基づく特徴量モデルを明確にする。すなわち、映像中に含まれる3次元形状を有するもの(Video Object)を「3次元形状+3次元運動情報+3次元位置情報」という3次元構造モデルにより記述できること、また、一方で、映像から得られる特徴量を用いたモデルにより映像内容を記述できることを論じている。これらを映像情報システムに利用するための基盤技術として考祭し、本論文の方向性を示す。 続く第3章から第6章では、映像構造を用いて動画像映像を自動的に解析することにより映像データベースを生成する手法について論じている。一般な映像の構造は各フレームの特徴量により定義することができるが、意味的な分類・インデキシングが必要である。そのためには、映像内容に依存したモデルを用いた映像解析を行っている。 第3章では、映像をオブジェクトを単位にデータベース化を行う手法を示している。一般的な映像をデータベース化するためには、データベース構造を考慮する必要がある。そこで、映像をショットごとに分類するだけではなく、フレーム中に含まれるオブジェクトをベースとした、映像オブジェクトデータベースを提案をしている。そのため、オブジェクトの抽出・追跡する手法およびオブジェクトの関係を分析手法を示している。また、映像には個々のオブジェクトだけではなく、ある時間単位で意味をもつイベント(Event)もある。それらをまとめたデータベースにより、映像を多層的に構造化できる。 第4章では、新たな映像記述方式として、個々のオブジェクトあるいは、イベントをユーザからの対話を利用して記述する手法を提案している。映像解析における困難な点は、得られた結果を意味的に判断しなくてはならないことである。内容に基づく記述(authoring)として、ユーザによる記述を採用する。全てのオブジェクトに対する記述は困難であるため、それを解決するために、映像オブジェクトデータベースを用いた手法を示す。こうした機能を基に、ハイパーメディア映像としての機能も提供できるようになる。 第5章では、対話型映像情報システムの一実装例として、ドラビングショットと呼ぶ車載カメラで撮影された映像を対象としたシステムを示す。対象とした映像には、道路に沿って多数の建物が映っており、それらをオブジェクトとしたデータペースを生成する。精度よく解析を行うためには、映像内容に合わせたモデルが必要であり、ここでは、ディジタル地図をモデルとすることで、十分あ精度の解析ができることを示す。 第6章では、第3章から第5章における検討された記述方式を応用し、別の実装例として、スポーツ映像のような全体の3次元構造が既知とする映像を扱う。この場合には、全空間および各オブジェクトを定義する事が可能であるが、対話型システムとしての機能を満たす程度の構造化を行う。ここでは、オブジェクトに関する記述(Annotation)と、オブジェクト抽出・追跡技術により対応付けを行い、ユーザの必要な情報を提供できるシステムを示す。また、将来的な映像システムのあり方を示す。 第7章では、映像のみならず、Web文書に含まれる静止画像を利用したシステムをネットワーク環境における対話型システムとしての位置付け、画像サーチエンジンについて論じる。静止画と言えども解析は意味的な難しいが、文書と同時に存在することから、それらの情報を記述として利用することが可能である。 |