近年、通信基盤や情報処理機器の発達に伴い、ナビゲーションシステムに代表されるようなリアルタイムの実世界情報を利用する技術への要求が高まっている。このような要求に対し、画像などを通して実世界情報の収集・統合を行い、都市空間の現状の把握や行動の決定といった人間生活を支援する実世界型情報媒介システムを構築する必要がある。実世界情報を提供する情報源のひとつに実世界画像がある。最近では、WebCamに代表されるようにインターネットを通じて遠隔地の風景を撮影できるサービスが行なわれている。また、テレビ放送では、道路交通などに関する実世界の風景を放送する番組もある。このような実画像から得られる実世界情報の統合を効率的に実行していくためには、実画像中のオブジェクトを認識する必要がある。本研究では、画像を通して実世界情報の収集・統合を行い、実世界型情報媒介システムにおけるロケーティング機能を実現する目的としている。 市街地シーンの実世界画像では、オブジェクトのほとんどは建物であるため、シーンを理解するためには建物を認識する必要がある。このようなシーンにおいては、広い範囲にわたって建物が映っている遠景のシーンと狭い範囲の建物が映っている近景のシーンの二種類のシーンに分けられる。一方、ディジタル地図には、実世界における建物の2次元的な位置情報を示す空間位置情報と、互いの相対的な位置関係を示す位置関係情報が存在する。そこで、画像から得られる建物の情報と、ディジタル地図に存在する情報のマッチングをとることで、地図と画像の実世界情報の統合が可能となる。本研究では、いくつかの市街地シーンの実世界画像に対し、地図から得られる情報を利用することで、各シーンの特徴に応じて特定の建物の認識やロケーティングを実現する認識手法を提案する。 第1章では、本研究の背景、目的及び概要について述べる。 第2章では、本研究と関連する研究について概説し、本研究の位置付けを明確にする。 第3章では、遠景の市街地シーンを対象として、空と建物の境界であるシルエットと、建物の輪郭とを用いた、遠景の市街地シーンの認識手法を提案する。はじめに、建物のシルエットを用いて遠くにある目印となる建物について、DPマッチングにより、画像から得られるシルエットと、地図から生成される建物シルエットのモデルとの対応関係を求めることで、画像中の目立つ建物と地図における建物とを関連付ける。具体的には、画像から抽出したシルエットをマッチングの入力データとする。カメラの位置と向きの情報に基づき,地図からシルエットになる可能性がある建物の幾何情報を得,これらの建物のシルエットを表す線分でモデルを記述する。入力データとモデルとの対応付け探索は2段階で行う。(1)線分ベクトルの大局的対応はDPマッチングにより行なう。(2)センサーの誤差と画像処理段階の誤りによって生じた対応付けの誤りを、類似評価の変換コストによって検出して除去、修正する。つぎに、この関連付けた結果に基づき、建物の輪郭の3Dモデルを構築し、2Dimension Template Matching(2DTM)を用いて、目印となる建物以外の建物について認識を行う。2DTMとは、3次元オブジェクトのモデルから投影変換で生成されたテンプレートと探索する画像領域のオブジェクト部分との類似度を評価し、画像中のオブジェクトと一致する箇所を求めることで、オブジェクトの姿勢を検出する手法である。2DTMを用いて画像から建物を検出する場合、まず、画像からエッジを抽出する。つぎに、建物のモデルを生成し、カメラの投影変換パラメータを用いて建物のモデルを画像に投影する。最後に、投影されたモデルをテンプレートとして、エッジ画像とテンプレートのマッチングを行う。これにより、遠景における建物の姿勢を精密に求めることができる。本研究で提案する認識手法を用いることで、図1に示すような遠景のシーンの認識が実現される。デイジタル地図には、実世界における建物の2次元的な位置情報を示す空間位置情報が存在するが、建物に対するテクスチャ情報が十分含まれているとは言えない。そして、建物の高さに関する情報としては建物の階数しか入手できない。そこで、これらの情報を利用することにより、各建物のテクスチャなどの情報を獲得することができ、ここで獲得できた情報を地図に付加することでテクスチャをつけた建物のモデルを構築することが可能となる。実験を通して、本研究で提案した手法により、建物の高さの情報をより精密に測量できることが確認された。また、画像から存在すべき建物が検出できなければ、その箇所での異変を検知することができ、何が起こっているかを推定することもできると考えられる。 図1:認識された遠景のシーン 第4章では、近景シーンに対して、目印となる建物の固有空間を生成し、入力画像を固有空間に投影することにより、入力画像における建物の認識を行う手法を提案する。また、入力画像から特徴領域を分割し、シーンの構造を記述する方法および、記述された画像の構造と町のモデルとのマッチングによるロケーティングの実現について検討する。本研究では、市街地シーンの認識を支援するため、建物のモデルを蓄積するモデルデータベースを構築した。扱うオブジェクトが多いため、モデルデータベースに各々蓄積された全ての建物のモデルと画像の特徴をマッチングすることは望ましくなく、可能性の高い建物のみを検索する。そこで、画像領域の特徴でモデルデータベースにインデックス付けることで、適当な候補を得、さらに、固有空間法を利用することより、よりロバストな認識結果を求めることができる。具体的には、一つの建物のみを写している画像を対象に、固有空間法を用いた建物の同定を行なった。建物の同定は建物の固有ベクトルを予め生成しておき、入力画像から得られる固有ベクトルと比較することで実現する。またあわせて、複数の建物があるシーンに対して、入力画像からエッジに基づいた分割方法を用いて建物領域を分割し、シーンの構造を記述する。分割された建物領域を入力の画像として、前述の固有空間手法を用いて、この領域が対応している建物を認識できるが、固有空間方法は建物の向きに敏感であるため、入力画像から抽出された建物の向きを学習に用いた建物の向きに合わせるする必要がある。そこで、エッジの分布情報に基づいてaffine変換により抽出された領域を学習に用いた建物の向きに変換する。また、本研究で扱う建物の数は非常に多く、色やテクスチャが類似する建物が多く存在するため、全ての建物の固有空間ベクトルをモデルとすることは、認識の効率と信頼性の点でよくない。そこで、抽出されたそれぞれの特徴領域を一つの建物領域として、色相から得られる色相特徴IDで領域の特徴を記述し、エッジ分布に基づいてこれらの領域間の前後関係を記述する。これにより、近景のシーンは隣接領域の特徴IDリストで記述される。一方、地図における道路側の建物の情報に基づき、建物隣接関係を表す建物データベースを構築する。このデータベースにおいて、それぞれの建物は色相特徴IDで記述される。また、交差点と交差点の間の道路に面した建物群を一つにまとめて扱い、それぞれの建物群は、色相特徴IDリストおよびその正面画像の固有空間ベクトルで記述される。画像から抽出された色相特徴IDのリストで、この建物データベースを検索することにより、適当な候補が得られる。正面画像に変換された建物領域を、得られた候補の固有空間に投影することにより、どこで撮影したシーンであるかというロケーティングを実現する。 第5章では、本研究のまとめについて述べ、本論文の結論とする。 |