内容要旨 | | 近年,通信基盤や情報処理機器の発達に伴い,ナビゲーションシステムに代表されるようなリアルタイムな実世界情報を利用する技術への要求が高まっている。このような要求に対し,本研究では,映像などを通して実世界情報の収集・統合を行い,人間主体の情報環境を実現する実世界型情報媒介システムを構築することを目的としている.具体的には,ニュースビデオ等放送映像の中に含まれる多くの実世界関連情報を自動的に認識,抽出し,地図情報と関連付けることにより,リアルタイム性が高い市街地映像データベースの構築を行う(図1).このため,市街地地図データベースでは建物,道路,地名,画像等に関する情報インデックスを構築し,ニュースビデオから検出してきた実世界情報と,地図データベースに存在する情報のマッチングをとることで,地図と映像などの実世界情報の統合を行う. 図1:The system of City Video Database 具体的には,以下の三つの部分でまとめて述べる. 1.ニュースビデオから実世界に関する情報の検出. ここでは,図2に示されているように,実世界情報に関する映像部分を自的に検出するため,実世界情報フィルターと言う機構を構築している.特に,ニュースビデオの中に映る実世界情報に対して,建物情報が重要な位置を占めるため,この機構の中で,いくつの識別モデルに基づいて,実世界建物に関する情報を検出する.具体的には,本システムでは,二種類の情報メディアを利用している,一つは画像情報(テクスチャ,カラー等)であり,もう一つは映像の中に映る字幕情報である.画像情報を利用する際に,計算量と複雑さを減らすため,まず,シーンチェンジの検出によって,ショットごとに第一番目のフレームを選ぶ.次に,建物情報と関係がないフレームを取り除く.そして,エッジ情報を用いて、建物情報に関するフレームの検出を行う.実験では建物情報に関するフレームの検出率が77%である.正確的に検出できなかったのはフレームの中に建物に似たオブジェクトが映っていた場合と遠くから写した建物風景の場合であった. 図2:The flow diagram of processing news video. また,ニュースビデオに映る字幕情報の中で,実世界に関する情報,例えば,何時,何処,事件内容を表す字幕文が多く映している.これらの実世界情報を自動的に認識できれば,それに関する地図情報を提供できることが考えられる.本システムでは,NTTが開発したテロップシステムを用いて,ニュースビデオのフレームから字幕情報を検出した.検出してきたフレームの中で,字幕情報を含まないフレームは8%,字幕が完全的に認識出来なかったフレームは14%,字幕が半分以下の割合で認識されたフレームは48%,字幕が半分以上の割合で認識できたフレームは30%である. 2.実世界映像の中に映る建物部分を検出する手法. 実世界画像の中に映る建物オブジェクトを認識するために,画像から建物部分を検出する必要がある.本文に提案された手法ではまず,実世界画像から,テクスチャ情報を表す画像点を検出する.そして,統計的な手法で,画像中にあるすべての建物部分の縦横方向での位置範囲を確定する.本手法では以下のステップで建物部分の検出を行う. (a)実世界建物画像からテクスチャ情報を表す画像点を検出する. (b)幾つかの種類のテンプレートを用いて,建物画像のテクスチャ情報を表す画像点から雑音点の取り除きを行い,テクスチャ情報を表す画像点の回復を行う. (c)横軸方向でのテクスチャ情報を表す画像点のヒストグラムを計算する.このヒストグラムをスムーシングして,特定的な隣接範囲の中で最大的なピークの位置を捜し出す. (d)このように選んだピークの位置を基準として,建物対象部分のテクスチャ情報を表す画像点の分布状況によってピーク位置のクラスタリングを行い,横軸方向で建物部分の位置範囲を決定する (e)決定された横軸方向での位置範囲ごとに,縦軸方向でのテクスチャ情報を表す画像点のヒストグラムを計算して,このヒストグラムをスムーシングする.このヒストグラムを利用して縦方向の認識対象の範囲を決定する. (f)横軸方向と縦軸方向でそれぞれに決められた建物部分の位置範囲によって建物部分を検出する. 実験では、200枚の実世界建物画像を用いて,提案手法で建物部分を検出する手法の評価実験を行った.提案手法により,図3に示しているように,いくつかの建物オブジェクトを映した建物画像から,建物オブジェクトを検出することができた. 図3:The result of detecting the building parts.3.映像と地図情報の関連つけ手法. 実世界映像と地図の関連付けは,市街地地図データベースの情報インデックスに基づいて行うため,データベースの実世界に関する情報インデックスの構築は重要なものとなる.具体的には,画像情報からテクスチャ,カラー等の情報を抽出するとともに,テロップから建物名,地名等の情報を検出し,それらのデータベース化を行うことで,実世界映像と地図の関連付けを行う,特に,テクスチャとカラー特徴を用いて実世界建物映像から見る角度,照明条件,大きさ等の変化に対してロバストに目標建物を認識検出するための手法の検討を行う.以下では,これらの手法について述べる. (a)ZENRIN地図と3000枚ぐらいの市街地建物画像を用いて,市街地地図データベースを構築する. (b)画像情報からテクスチャ,カラー等の情報を抽出するとともに,地図から建物名,地名等の情報を用い,それらのデータベース化を行った.特に,テクスチャとカラー特徴を用いて実世界建物映像から見る角度,照明条件,大きさ等の変化に対してロバストに目標建物を認識検出するための手法の検討を行った.評価実験について,200枚実世界画像を用いて,実験を行った.具体的には,実世界建物画像中の識別対象部分を自動的に検出した上,"投票"により建物画像の認識を以下のように行った. i."wavelet transform"と"color clustering"手法でテクスチャとカラーの画像特徴を抽出する. ii.識別対象部分ごとに,データベースの検索を行う.具体的には,識別対象部分の画像特徴を用い,"マッチングマトリクス"モデルで計算してきた特徴間の距離によって,小さいから20位以内に位置するデータベースの建物画像を選ぶ(図4).そして,これらの建物画像の順序番号と名前をメモする. iii.式(1)を用いて,全ての選ばれてきた建物画像ごとに"投票"の値を計算する. N:識別対象部分の数. この式の中で,データベース中の画像Iは検索画像のi番目の識別対象部分から 抽出した特徴によって検索されてきた20枚の画像の中に存在すれば,ViIを画像Iの順序番号とし,他の場合,ViIを21とする. iv."投票"の値によって,候補建物オブジェクトを決める(図5). 図表表1:The recognition rate(%)using real building images Position I:the top one position.Position II:within the top five positions.Position III:within the top ten positions. / 図4:Retrieving the database respectively using the features extracted from the building parts. データベース中の建物名等のテキスト情報に関するインデックスの構築では,実用の要求に応じて,二つの問題に対処しなければならない,一つは,検索のスピードであり,もう一つは,文字情報の中で抜け落ちたり,書き間違えたの文字があっても,データベース中の文に対応つけできると言うことである.このため,本システムでは"指紋(finger prints)"と言う手法を利用した. (c)映像と地図情報との関連つけでは,画像情報を用いて検索して来た候補建物オブジェクトに関する建物名と地名情報とニュースビデオからの字幕情報と音声から認識してきたテキスト情報を組み合わせて,建物オブジェクトと対応地図情報との関連付けができた(図6). 図表図5:Deciding the candidates for the building object based on the vote numbers. / 図6:Recognition of information on real-world in news video synthetically using the information of image,caption and sound. 以上のような研究により,ニュースビデオ等放送映像における実世界関連情報を自動的に認識,抽出し,それらを地図と関連付けることにより,高度なリアルタイム性の高い市街地映像データベースの取得が可能となる.また,これにより,地図からニュース映像,ニュース映像から地図といったアクセスが可能となり,実世界情報のより高度な利用を実現できる.将来の研究について,現在の市街地映像データベースの機能を更に拡張するために実世界に関する情報,例えば,建物や道路等にかんする情報でデータベースを更に,充実することにより,情報インデックスの構築手法と実世界オブジェクトの認識モデルを研究する.そして,実世界オブジェクトを認識するため,これらの情報インデックスと認識モデルを総合的に利用する手法を研究する. |