学位論文要旨詳細

学位論文要旨


No		213862
著者（漢字）		柳沼,良知
著者（英字）
著者（カナ）		ヤギヌマ,ヨシトモ
標題（和）		複数メディアの統合による映像情報の高次記述と利用に関する研究
標題（洋）
報告番号		213862
報告番号		乙13862
学位授与日		1998.05.21
学位種別		論文博士
学位種類		博士(工学)
学位記番号		第13862号
研究科		工学系研究科
専攻		電子工学専攻
論文審査委員		主査：　東京大学　教授　坂内,正夫　東京大学　教授　斉藤,忠夫　東京大学　教授　池内,克史　東京大学　教授　安達,淳　東京大学　教授　喜連川,優
内容要旨		近年、インターネットの普及や放送のディジタル化、多チャンネル化の進展に伴い、利用可能なマルチメディアコンテンツの量は急激に増大してきている。この結果、個人が多種多様の情報に触れることができるようになるという利点がある反面、マルチメディアコンテンツの氾濫によって、個人が自分にとって有用な情報、必要な情報に対して効率的にアクセスすることが困難な状況も生じてきている。このような状況のもとでは、マルチメディアコンテンツを提供する側とそれを利用する利用者の間に立ち、供給される情報を媒介し、その利用価値を高めるための媒介機構が必要となってくる。本論文は、「複数メディアの統合による映像情報の高次記述と利用に関する研究」と題し、上記の問題を解決するためのマルチメディアコンテンツの高次記述手法とその利用に関する研究をまとめたものであり、8章から構成されている。　第1章は「序論」であり、本研究の背景と目的、本論文の構成と概要について述べている。　第2章「関連研究」では、本研究に関連する従来の研究について概説し、本研究との関係について述べる。具体的には、本研究に関連のある「画像検索」、「インデクシング」、「映像の加工・編集」、「異形態情報の統合」、「放送形態」等に関する研究の概要について述べる。　第3章「DPマッチングを用いた複数メディアの統合手法」では、マルチメディアコンテンツのデータベース化の際に必要な複数メディアの統合手法として、DPマッチングを用いた複数メディア間の対応付け手法について述べる。　具体的には、映像、音声、シナリオ文書といったメディアが必ずしも時間的に同期されていないという問題点を解決するための一つの手法として、各々のメディアから複数のメディアから参照できる「台詞のあるなしのパターン」、「場面の変わり目のパターン」等の複数のパターンの抽出を行い、そのパターンをDPマッチングを用いて対応付けすることによる複数メディアの同期方式の提案を行う。　この結果を利用することで、以下で述べる意味的な内容に基づく映像検索、映像編集、映像に対する問い合わせ機能等を実現することができる。　第4章「メディアの統合に基づく画像検索」では、第3章で述べたメディアの統合の応用例として、シナリオ文書を解析することによる、意味的な内容に基づく映像検索手法について述べる。　具体的には、内容に踏み込んだ映像検索を実現するためにシナリオの文書解析を行い、ドラマ中の人物の存在・行動情報を表す「存在行動マップ」の作成を行う。存在行動マップとは、「シーンの場所」、「シーンの時刻」、「登場人物」、「登場人物の状態」、「動作主の行動」等の情報をシナリオ文書の解析により抽出したものである。　また、存在行動マップを用いた検索実験結果についても併せて述べることにより、提案手法の有効性を示す。　第5章、「シナリオ文書の編集に基づく映像編集」では、メディアの統合による映像の編集方式として、シナリオ文書の編集に基づく映像編集方式について述べる。　具体的には、より意味内容に立ち入った映像編集を実現するため、特に、ドラマ映像にともなう台本やシナリオ文書といった文書情報のもつ、抽象度の高く、意味的内容を反映した記述に着目し、それらを編集する事による映像の編集方式について提案を行なう。　また、実際に、ドラマ映像を対象とした実験を行うことで、本手法の有効性を示す。　第6章、「質問応答機能」では、映像に対して直接問い合わせできるような質問応答機能の実現について述べる。また、その際に必要となる映像中の人物オブジェクトに対する名前ラベルの自動付与についても合わせて述べる。　具体的には、第3章で述べたDPマッチング等の手法により映像に対して登場人物のラベルがついているものの、映像の中のそれぞれの人物オブジェクトに対しては、人物名のラベルがついていない場合を想定し、シナリオ文書からの情報と映像の解析により得られた情報を統合することにより、映像中の各オブジェクトに対してそれらを説明するラベルを付与する手法について述べる。　このような映像中の人物特定を実現することで、映像に対して「この人は誰」といった問い合わせを行うことができる質問応答機能を実現できるだけではなく「誰々が右側にいて誰々が左側にいるシーンを探せ」といった人物をより特定した高次な検索、人物名や台詞等を映像にスーパインポーズしながら視聴できるようなスマート映像ブラウザ等、映像情報の高次な利用を実現することができる。　第7章「映像記述言語SVSDL」では、前章までに述べた、シナリオ文書を用いた映像の内容依存検索、シナリオ文書の編集に基づく映像編集、映像に対する質問応答等の機能を統合し、映像情報のデータベース化、再利用を効率的に行うための枠組みとして、映像記述言語SVSDLの提案を行う。また、映像、音声、文書メディア等の高次利用に向けて映像記述言語SVSDLに基づき実現した、プロトタイプシステムについても併せて述べる。　第8章は「結論」であり、本論文のまとめを行っている。　以上、要するに、本論文では、マルチメディアコンテンツの高次利用に向けて、映像、音声、シナリオ文書といった複数メディアの統合手法の提案、その結果を用いた意味的な内容に基づく画像検索、シナリオ文章の編集による映像編集、映像に対する問い合わせ機能といった映像情報の高次利用の実現、更に、それらの機能を統合する枠組みとして映像記述言語SVSDLの提案と実現を行ったものである。
審査要旨		本論文は、「複数メディアの統合による映像情報の高次記述と利用に関する研究」と題し、放送映像を中心とするマルチメディアコンテンツの高次記述手法とその利用に関する研究をまとめたものであり、8章から構成されている。　第1章は「序論」であり、本研究の背景と目的、本論文の構成と概要について述べている。　第2章「関連研究」では、画像検索、インデクシング、映像の加工・編集、異形態情報の統合、放送形態等、本研究に関連する技術分野の従来の研究について概説し、本研究との関係について述べている。　第3章「DPマッチングを用いた複数メディアの統合手法」では、マルチメディアコンテンツに対する記述、利用の際に必要となる複数メディアの統合手法として、DPマッチングを用いた複数メディア間の対応付け手法について述べている。具体的には、映像、音声、シナリオ文書といった必ずしも時間的に同期されていないメディアを対応付けるための手法として、各々のメディアから「台詞のあるなしのパターン」、「場面の変わり目のパターン」等の複数のメディアから参照できるパターンの抽出を行い、それらをDPマッチングを用いて対応付けすることによる複数メディアの同期方式の提案を行っている。　第4章「メディアの統合に基づく画像検索」では、第3章で述べたメディアの統合の応用例として、シナリオ文書を解析することによる、意味的な内容に基づく映像検索手法について述べている。ここでは、内容に踏み込んだ映像検索を実現するためにシナリオの文書解析を行い、ドラマ中の人物の存在・行動情報を表す「存在行動マップ」の作成を行うとともに、存在行動マップを用いた検索実験結果についても併せて述べることにより、提案手法の有効性を示している。　第5章「シナリオ文書の編集に基づく映像編集」では、メディアの統合による映像の編集方式として、シナリオ文書の編集に基づく映像編集方式について述べている。ここでは、より意味内容に立ち入った映像編集を実現するため、特に、ドラマ映像にともなう台本やシナリオ文書といった文書情報のもつ、抽象度が高く意味的内容を反映した記述に着目し、それらを編集する事による映像の編集方式について提案を行ない、また、実際に、ドラマ映像を対象とした評価実験を行っている。　第6章「質問応答機能」では、映像に対して直接問い合わせできるような質問応答機能の実現について述べており、その際に必要となる映像中の人物オブジェクトに対する名前ラベルの自動付与についても合わせて議論している。具体的には、第3章で述べたDPマッチング等の手法により映像に対して登場人物のラベルがついているものの、映像の中のそれぞれの人物オブジェクトに対して人物名のラベルがついていない場合を想定し、シナリオ文書からの情報と映像の解析により得られた情報を統合することにより、映像中の各オブジェクトに対してそれらを説明するラベルを付与する手法について述べている。　第7章「映像記述言語SVSDL」では、前章までに述べたシナリオ文書を用いた映像の内容依存検索、シナリオ文書の編集に基づく映像編集、映像に対する質問応答等の機能を統合し、映像情報に対する記述、利用を効率的に行うための枠組みとして映像記述言語SVSDLの提案を行うとともに、映像、音声、文書メディア等の高次利用に向けて実装したプロトタイプシステムについて述べている。　第8章は「結論」であり、本論文のまとめを行っている。　以上、これを要するに、本論文では、映像マルチメディアコンテンツの高次利用に向けて、映像、音声、シナリオ文書といった複数メディアの統合手法の提案すると共に、その結果を用いた意味的な内容に基づく画像検索、シナリオ文章の編集による映像編集、映像に対する問い合わせ機能などの映像情報の高次利用方式の実現、更に、それらの機能を統合する枠組みとした新しい映像記述言語の提案と実装を行ったものであり、電子情報工学上貢献するところが少なくない。　よって、本論文は博士(工学)の学位請求論文として合格と認められる。
UTokyo Repositoryリンク