学位論文要旨



No 114754
著者(漢字) 金,浩民
著者(英字)
著者(カナ) キン,コウミン
標題(和) 市街地映像データベースの取得と形成に関する研究
標題(洋) Acquisition and Construction of City Video Database
報告番号 114754
報告番号 甲14754
学位授与日 1999.09.30
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4524号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
 東京大学 教授 池内,克史
 東京大学 教授 安達,淳
 東京大学 教授 喜連川,優
 東京大学 助教授 森川,博之
内容要旨

 近年,通信基盤や情報処理機器の発達に伴い,ナビゲーションシステムに代表されるようなリアルタイムな実世界情報を利用する技術への要求が高まっている。このような要求に対し,本研究では,映像などを通して実世界情報の収集・統合を行い,人間主体の情報環境を実現する実世界型情報媒介システムを構築することを目的としている.具体的には,ニュースビデオ等放送映像の中に含まれる多くの実世界関連情報を自動的に認識,抽出し,地図情報と関連付けることにより,リアルタイム性が高い市街地映像データベースの構築を行う(図1).このため,市街地地図データベースでは建物,道路,地名,画像等に関する情報インデックスを構築し,ニュースビデオから検出してきた実世界情報と,地図データベースに存在する情報のマッチングをとることで,地図と映像などの実世界情報の統合を行う.

図1:The system of City Video Database

 具体的には,以下の三つの部分でまとめて述べる.

1.ニュースビデオから実世界に関する情報の検出.

 ここでは,図2に示されているように,実世界情報に関する映像部分を自的に検出するため,実世界情報フィルターと言う機構を構築している.特に,ニュースビデオの中に映る実世界情報に対して,建物情報が重要な位置を占めるため,この機構の中で,いくつの識別モデルに基づいて,実世界建物に関する情報を検出する.具体的には,本システムでは,二種類の情報メディアを利用している,一つは画像情報(テクスチャ,カラー等)であり,もう一つは映像の中に映る字幕情報である.画像情報を利用する際に,計算量と複雑さを減らすため,まず,シーンチェンジの検出によって,ショットごとに第一番目のフレームを選ぶ.次に,建物情報と関係がないフレームを取り除く.そして,エッジ情報を用いて、建物情報に関するフレームの検出を行う.実験では建物情報に関するフレームの検出率が77%である.正確的に検出できなかったのはフレームの中に建物に似たオブジェクトが映っていた場合と遠くから写した建物風景の場合であった.

図2:The flow diagram of processing news video.

 また,ニュースビデオに映る字幕情報の中で,実世界に関する情報,例えば,何時,何処,事件内容を表す字幕文が多く映している.これらの実世界情報を自動的に認識できれば,それに関する地図情報を提供できることが考えられる.本システムでは,NTTが開発したテロップシステムを用いて,ニュースビデオのフレームから字幕情報を検出した.検出してきたフレームの中で,字幕情報を含まないフレームは8%,字幕が完全的に認識出来なかったフレームは14%,字幕が半分以下の割合で認識されたフレームは48%,字幕が半分以上の割合で認識できたフレームは30%である.

2.実世界映像の中に映る建物部分を検出する手法.

 実世界画像の中に映る建物オブジェクトを認識するために,画像から建物部分を検出する必要がある.本文に提案された手法ではまず,実世界画像から,テクスチャ情報を表す画像点を検出する.そして,統計的な手法で,画像中にあるすべての建物部分の縦横方向での位置範囲を確定する.本手法では以下のステップで建物部分の検出を行う.

 (a)実世界建物画像からテクスチャ情報を表す画像点を検出する.

 (b)幾つかの種類のテンプレートを用いて,建物画像のテクスチャ情報を表す画像点から雑音点の取り除きを行い,テクスチャ情報を表す画像点の回復を行う.

 (c)横軸方向でのテクスチャ情報を表す画像点のヒストグラムを計算する.このヒストグラムをスムーシングして,特定的な隣接範囲の中で最大的なピークの位置を捜し出す.

 (d)このように選んだピークの位置を基準として,建物対象部分のテクスチャ情報を表す画像点の分布状況によってピーク位置のクラスタリングを行い,横軸方向で建物部分の位置範囲を決定する

 (e)決定された横軸方向での位置範囲ごとに,縦軸方向でのテクスチャ情報を表す画像点のヒストグラムを計算して,このヒストグラムをスムーシングする.このヒストグラムを利用して縦方向の認識対象の範囲を決定する.

 (f)横軸方向と縦軸方向でそれぞれに決められた建物部分の位置範囲によって建物部分を検出する.

 実験では、200枚の実世界建物画像を用いて,提案手法で建物部分を検出する手法の評価実験を行った.提案手法により,図3に示しているように,いくつかの建物オブジェクトを映した建物画像から,建物オブジェクトを検出することができた.

図3:The result of detecting the building parts.
3.映像と地図情報の関連つけ手法.

 実世界映像と地図の関連付けは,市街地地図データベースの情報インデックスに基づいて行うため,データベースの実世界に関する情報インデックスの構築は重要なものとなる.具体的には,画像情報からテクスチャ,カラー等の情報を抽出するとともに,テロップから建物名,地名等の情報を検出し,それらのデータベース化を行うことで,実世界映像と地図の関連付けを行う,特に,テクスチャとカラー特徴を用いて実世界建物映像から見る角度,照明条件,大きさ等の変化に対してロバストに目標建物を認識検出するための手法の検討を行う.以下では,これらの手法について述べる.

 (a)ZENRIN地図と3000枚ぐらいの市街地建物画像を用いて,市街地地図データベースを構築する.

 (b)画像情報からテクスチャ,カラー等の情報を抽出するとともに,地図から建物名,地名等の情報を用い,それらのデータベース化を行った.特に,テクスチャとカラー特徴を用いて実世界建物映像から見る角度,照明条件,大きさ等の変化に対してロバストに目標建物を認識検出するための手法の検討を行った.評価実験について,200枚実世界画像を用いて,実験を行った.具体的には,実世界建物画像中の識別対象部分を自動的に検出した上,"投票"により建物画像の認識を以下のように行った.

 i."wavelet transform"と"color clustering"手法でテクスチャとカラーの画像特徴を抽出する.

 ii.識別対象部分ごとに,データベースの検索を行う.具体的には,識別対象部分の画像特徴を用い,"マッチングマトリクス"モデルで計算してきた特徴間の距離によって,小さいから20位以内に位置するデータベースの建物画像を選ぶ(図4).そして,これらの建物画像の順序番号と名前をメモする.

 iii.式(1)を用いて,全ての選ばれてきた建物画像ごとに"投票"の値を計算する.

 

 N:識別対象部分の数.

 この式の中で,データベース中の画像Iは検索画像のi番目の識別対象部分から 抽出した特徴によって検索されてきた20枚の画像の中に存在すれば,ViIを画像Iの順序番号とし,他の場合,ViIを21とする.

 iv."投票"の値によって,候補建物オブジェクトを決める(図5).

図表表1:The recognition rate(%)using real building images Position I:the top one position.Position II:within the top five positions.Position III:within the top ten positions. / 図4:Retrieving the database respectively using the features extracted from the building parts.

 データベース中の建物名等のテキスト情報に関するインデックスの構築では,実用の要求に応じて,二つの問題に対処しなければならない,一つは,検索のスピードであり,もう一つは,文字情報の中で抜け落ちたり,書き間違えたの文字があっても,データベース中の文に対応つけできると言うことである.このため,本システムでは"指紋(finger prints)"と言う手法を利用した.

 (c)映像と地図情報との関連つけでは,画像情報を用いて検索して来た候補建物オブジェクトに関する建物名と地名情報とニュースビデオからの字幕情報と音声から認識してきたテキスト情報を組み合わせて,建物オブジェクトと対応地図情報との関連付けができた(図6).

図表図5:Deciding the candidates for the building object based on the vote numbers. / 図6:Recognition of information on real-world in news video synthetically using the information of image,caption and sound.

 以上のような研究により,ニュースビデオ等放送映像における実世界関連情報を自動的に認識,抽出し,それらを地図と関連付けることにより,高度なリアルタイム性の高い市街地映像データベースの取得が可能となる.また,これにより,地図からニュース映像,ニュース映像から地図といったアクセスが可能となり,実世界情報のより高度な利用を実現できる.将来の研究について,現在の市街地映像データベースの機能を更に拡張するために実世界に関する情報,例えば,建物や道路等にかんする情報でデータベースを更に,充実することにより,情報インデックスの構築手法と実世界オブジェクトの認識モデルを研究する.そして,実世界オブジェクトを認識するため,これらの情報インデックスと認識モデルを総合的に利用する手法を研究する.

審査要旨

 近年、自動車やモバイル情報処理機器の発達に伴い、リアルタイムな実世界情報を利用する技術への要求が高まってきている。本論文は、「Acquisition and Construction of City Video Database(市街地映像データベースの取得と形成に関する研究)」と題し、実世界の今を反映するデータベースの形成とその高次利用に関する研究をまとめたものであり、英文6章から構成されている。

 第1章は「序論」であり、本研究の背景と目的、本論文の構成と概要について述べている。

 第2章「関連研究」では、本研究に関連する従来の研究について概説し、本研究との関係について述べている。具体的には、ビデオデータベースの構築技術、内容に基づくビデオ情報の分類とインデックス技術、異形態情報の統合技術等に関する研究の概要について述べている。

 第3章「マルチメディア地図データベースの構築」では、市街地対象のマルチメディアコンテンツのデータベース化に必要な情報インデックス化の手法について述べている。即ち、ディジタル地図のデータと建物画像を対応付けることにより、実世界オブジェクトに関する情報を総合的に管理し、地図情報のインデックス化を実現している。画像情報のインデックス化手法として、実世界建物映像から見る角度、照明条件、大きさ等の変化に対して、ロバストに目標建物を認識検出するために、"wavelet transform"と"color clustering"を用いたテクスチャとカラー特徴を利用する方式を提案している。文字情報に関するインデックスとしては、文字情報の中で抜け落ちたり、誤った文字があってもデータベースの文字に対応付けできるため、"指紋(finger prints)"と呼ぶ手法を応用したロバストな手法を提案している。更に、建物の見え方情報を付加した新しい地図データベースを提案し、東京港区地区約3000軒のプロトタイプシステムを構築している。

 第4章「実世界型のオブジェクトの認識」では、実世界型オブジェクトを認識するために、市街地画像から建物部分の検出と認識を行う手法を提案している。本手法では、まず、実世界画像から、テクスチャ情報を表す画像点を検出し、統計的な手法で、画像の中にある全ての建物部分の縦横方向での位置範囲を決定する。次に、"マッチングマトリックス"と名付けた手法を用いて画像間のテクスチャ特徴とカラー特徴をマッチングし、"投票"により市街地画像を認識している。

 更に、第3章の地図データベース援用して実際の画像を用いた実験も合わせて行い、提案した認識手法の実用性と有効性を評価している。

 第5章、「実世界情報と地図の関連付け」では、まず、ニュースビデオから実世界関連情報、特に、建物に関する情報を自動的に検出するための手法について述べている。具体的には、テクスチャ、カラー等や映像中の字幕情報を総合的に利用したオントロジーを設定し、実世界映像と地図情報の関連付けを行っている。また、実際のTV映像を利用して、実世界情報と地図情報との関連付けの評価実験を行っている。

 第6章は「まとめと将来の研究」では、本論文のまとめを行うとともに、将来の研究について述べている。

 以上、これを要するに、本研究は、モバイル情報端末や放送映像における市街地映像を自動的に認識、抽出し、それらと地図とを関連付ける手法について提案を行い、更にこれに必要な新たな地図データベースのプロトタイプの構築、実際の映像を用いた評価実験により、その有効性を実証したもので、電子情報工学上貢献するところが少なくない。

 よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク