学位論文要旨詳細

学位論文要旨


No		119538
著者（漢字）		張,文利
著者（英字）
著者（カナ）		チョウ,ブンリ
標題（和）		意味的な内容に基づいた映像コンテンツ生成システムに関する研究
標題（洋）		The Study on Semantic Video Content Generation System
報告番号		119538
報告番号		甲19538
学位授与日		2004.03.25
学位種別		課程博士
学位種類		博士(情報理工学)
学位記番号		博情第19号
研究科		情報理工学系研究科
専攻		電子情報学専攻
論文審査委員		主査：　東京大学　教授　坂内,正夫　東京大学　教授　池内,克史　東京大学　教授　安達,淳　東京大学　教授　喜連川,優　東京大学　教授　瀬崎,薫　東京大学　助教授　上條,俊介
内容要旨		要旨を表示する近年、衛星を利用したBS及びCSディジタル放送、地上波ディジタル放送が始まり、ディジタル放送の普及と伴い、ディジタル映像量が急増している。このような映像コンテンツを利用するため、ここ数年、ビデオ・オン・デマンド、バーチャル・リアリティ、インターネットを経由する映像ストリーミングなど、多くの映像応用アアプリケーションが開発されている。しかし、効率的に映像処理し、効果的に管理する能力はまだ欠如である。このため、映像内容生成管理できる新しい技術とツールを備えたシステムが必要とされる。本論文では、意味的な内容に基づいた映像コンテンツ生成システムに関する研究を行う。この分野の研究は主に二つがある。(1)メディア間協調の結果を自動、半自動あるいは手作業によって映像コンテンツに高次記述を付与システム(2)低次特徴量を利用して、映像コンテンツを自動検索するシステムがある。前者のシステムの場合、関連研究の多くは映像のすべての内容に対して、高次記述を付けようとしているが、結果として、記述作業は大変コストがかかることになる。我々の研究グループはメディア間協調結果を利用するシステムでは、ドラマ映像を対象にしたドラマ映像管理利用フレームワークVideo-Stream Description Langage for TV mmovie show(VDL-TV)を提案し、ドラマ映像とそれに付随する台本との対応づけによって、ドラマ映像コンテンツに高次記述し、VSDL-TVに基づいたシステムの提案と実装を行った。映像対象を限定することになり、般映像を対象としない問題がある。一方、後者のシステムの場合、低次特徴量の組み合わせで自動的に検索を行うが、あくまで「イメージ検索」で、より高次な意味内容までは生成できない欠点がある。それに画像検索技術は限界があることで、なかなか満足できる検索結果が得られないのが現状である。本論文では、上記の二種類の手法を統合し、一般映像を対象に映像内対象物認識を行う手法を開発。本手法のもとに映像をもつ低次特徴量から高次記述まで生成可能な映像コンテンツ生成システムを提案。本システムは、まず映像ショットからキーフレームを検出し、画像セグメント手法を用いて、分割された各領域の−色、面積、フレームにおける位置等の低次特徴量を検出する。次に、領域ベースのモデルマッチング手法によって同一オブジェクトが存在する映像ショットが自動的に検出される。画像認識技術は限界があること、また低次特徴量と高次記述の間のセイマンティックギャップを埋めるには、三つの面で改善を行う。その一：オントロージ理論を元に映像内にある対象物に関する"セイマンティックオブジェクト"モデルデータベースを構築する。その二：緩めたモデルを利用しリコー率の高い検索結果を検出する。その三：代表的な対象物に対して、検索結果からコンテンツ提供者が対話的に該当オブジェクトが存在するショットを選択し、システム側はモデルにつけられた情報に従って自動的に選択されたオブジェクトに高次記述を付与する。従って高位記述と低位記述の組み合わせ利用で映像内一般的対象物にも対応可能。このようなデータベースシステムに基づいて、実装した応用演算を組み合わせることによって、より自由度の高い映像コンテンツが高精度で生成する環境を構築。現段階では、80％の映像内対象物再現率を実証し、約10時間の映像データベースを構築し、評価を実施。効率的かつ実用性をもつシステムであると確認されている。また本システムに基づき、ドラマ登場人物人気投票システム、映像要約システム、映像空間検索利用システム、Eコマースシステムなどさまざまなオブジェクトベースアプリケーションの開発し、システムの有効性をさらに確認されたとする。具体的に論文の構成は以下のようになる。第一章：　研究背景、目的について述べるほか、論文の構成の要旨についても説明する。第二章：　高次記述をもつ映像コンテンツ生成システムについて述べる。第三章：　低次記述をもつ映像コンテンツ生成システムについて述べる。第四章：　低次記述に基づいたシステムの応用演算体系について述べる第五章：　低次記述に基づいたシステム実装と評価について述べる第六章：　提案したシステムに基づく応用アプリケーションについて述べる。第七章：　全体のまとめと今後の予定について述べる。
審査要旨		要旨を表示する本論文は、「The Study on Semantic Video Content Generation System（意味的な内容に基づいた映像コンテンツ生成システムに関する研究）」と題し、今後発展が期待されるディジタル放送による映像コンテンツの効率的な生成と利用を可能とするシステムに関する研究であり、映像のもつ低次特徴量から意味的な映像コンテンツへの結合方式及びそれに基づいた映像データベースシステムの開発、実装、応用及び評価をとりまとめたもので、英文7章から構成されている。第1章は、「Introduction」であり、研究の背景として一般的な映像コンテンツシステムの概要を簡潔に示すと共に、既存システムの抱える問題点を指摘し、本研究で提案する新しいアプローチを開発する動機、本研究が必要とされる理由、本研究の目的及び構成を示している。第2章は、「Video Database System based on High-Level Descriptions」と題し、映像に高次記述を付与する手法の一つであるメディア間協調による記述法について既存システムを分析すると共に、ドラマ映像とそれに付随する台本との対応づけによって、ドラマ映像に高次記述する手法を採用した映像管理利用フレームワークを提案、実装している。さらに利用局面での有効性を示すと共に、この種のシステムにおける改善点について議論を行っている。第3章は、「Video Database System based on Low-Level Descriptions 」と題し、既存システムにおける“認識レベルのギャップ（セマンティクギャップ）”という大きな問題点を解決するための、低次特徴量から高次記述を生成する手法を提案している。これはオントロージ理論のもとに領域の色、位置、面積率などの類似度に基づき、一部人間との対話を援用に映像内対象物抽出と記述付与を行う手法である。本手法に基づき、自動抽出可能な低次特徴量をもつ映像システムと第2章で述べた高次記述をもつ映像システムとの二つのシステムの長所を統合する映像データベースシステムを提案し、実装している。第4章は、「Query Model 」と題し、映像内対象物をベースとした意味的な内容を生成するためのQuery Modelを提案している。各種の自動演算を組み合わせることによって、より自由度の高い映像コンテンツが高精度で生成する環境が構築できることを実例で明らかにしている。第5章は、「System Implement and Evaluation」と題し、約10時間の商用放送からの映像データベースを構築し、第3章で提案した低次特徴量に基づいた映像システムの実装、評価と考察を行っている。その結果、80％以上の映像内対象物再現率を実証し、システムの有効性を実証している。第6章は、「Application Services 」と題し、第3章で提案を行った映像コンテンツ生成システムに基づく応用アプリケーションについて議論を行っている。登場人物人気投票システム、映像空間Semantic検索システムなどさまざまな応用アプリケーションを提案、実装している。これらにより、提案した映像コンテンツデータベースシステムが、2次映像コンテンツやサービスを効率的かつ実用的に生成できることを実証している。第7章は、「Conclusions」であり、本研究の成果を要約すると共に、今後の展望を明らかにしている。以上これを要するに、本論文は、ディジタル放送の普及による膨大な映像の管理利用において、映像のもつ低次特徴量から意味的な内容への結合を可能とする映像コンテンツ生成システムを提案、実装及び評価を行い、実用的な利用局面での有効性を実証したもので、映像情報処理にとって有用な知見が得られており、電子情報学上貢献するところが少なくない。よって、本論文は博士（情報理工学）の学位請求論文として合格と認められる。
UTokyo Repositoryリンク