学位論文要旨詳細

学位論文要旨


No		113385
著者（漢字）		劉,佩林
著者（英字）
著者（カナ）		リウ,ペイリン
標題（和）		市街地画像における対象物の認識と位置特定の研究
標題（洋）		Recognizing and Locating Objects and Places in Urban Scene
報告番号		113385
報告番号		甲13385
学位授与日		1998.03.30
学位種別		課程博士
学位種類		博士(工学)
学位記番号		博工第4103号
研究科		工学系研究科
専攻		電子情報工学専攻
論文審査委員		主査：　東京大学　教授　坂内,正夫　東京大学　教授　羽鳥,光俊　東京大学　教授　池内,克史　東京大学　教授　石塚,満　東京大学　教授　安達,淳　東京大学　教授　喜連川,優
内容要旨		近年、通信基盤や情報処理機器の発達に伴い、ナビゲーションシステムに代表されるようなリアルタイムの実世界情報を利用する技術への要求が高まっている。このような要求に対し、画像などを通して実世界情報の収集・統合を行い、都市空間の現状の把握や行動の決定といった人間生活を支援する実世界型情報媒介システムを構築する必要がある。実世界情報を提供する情報源のひとつに実世界画像がある。最近では、WebCamに代表されるようにインターネットを通じて遠隔地の風景を撮影できるサービスが行なわれている。また、テレビ放送では、道路交通などに関する実世界の風景を放送する番組もある。このような実画像から得られる実世界情報の統合を効率的に実行していくためには、実画像中のオブジェクトを認識する必要がある。本研究では、画像を通して実世界情報の収集・統合を行い、実世界型情報媒介システムにおけるロケーティング機能を実現する目的としている。　市街地シーンの実世界画像では、オブジェクトのほとんどは建物であるため、シーンを理解するためには建物を認識する必要がある。このようなシーンにおいては、広い範囲にわたって建物が映っている遠景のシーンと狭い範囲の建物が映っている近景のシーンの二種類のシーンに分けられる。一方、ディジタル地図には、実世界における建物の2次元的な位置情報を示す空間位置情報と、互いの相対的な位置関係を示す位置関係情報が存在する。そこで、画像から得られる建物の情報と、ディジタル地図に存在する情報のマッチングをとることで、地図と画像の実世界情報の統合が可能となる。本研究では、いくつかの市街地シーンの実世界画像に対し、地図から得られる情報を利用することで、各シーンの特徴に応じて特定の建物の認識やロケーティングを実現する認識手法を提案する。　第1章では、本研究の背景、目的及び概要について述べる。　第2章では、本研究と関連する研究について概説し、本研究の位置付けを明確にする。　第3章では、遠景の市街地シーンを対象として、空と建物の境界であるシルエットと、建物の輪郭とを用いた、遠景の市街地シーンの認識手法を提案する。はじめに、建物のシルエットを用いて遠くにある目印となる建物について、DPマッチングにより、画像から得られるシルエットと、地図から生成される建物シルエットのモデルとの対応関係を求めることで、画像中の目立つ建物と地図における建物とを関連付ける。具体的には、画像から抽出したシルエットをマッチングの入力データとする。カメラの位置と向きの情報に基づき,地図からシルエットになる可能性がある建物の幾何情報を得,これらの建物のシルエットを表す線分でモデルを記述する。入力データとモデルとの対応付け探索は2段階で行う。(1)線分ベクトルの大局的対応はDPマッチングにより行なう。(2)センサーの誤差と画像処理段階の誤りによって生じた対応付けの誤りを、類似評価の変換コストによって検出して除去、修正する。つぎに、この関連付けた結果に基づき、建物の輪郭の3Dモデルを構築し、2Dimension Template Matching(2DTM)を用いて、目印となる建物以外の建物について認識を行う。2DTMとは、3次元オブジェクトのモデルから投影変換で生成されたテンプレートと探索する画像領域のオブジェクト部分との類似度を評価し、画像中のオブジェクトと一致する箇所を求めることで、オブジェクトの姿勢を検出する手法である。2DTMを用いて画像から建物を検出する場合、まず、画像からエッジを抽出する。つぎに、建物のモデルを生成し、カメラの投影変換パラメータを用いて建物のモデルを画像に投影する。最後に、投影されたモデルをテンプレートとして、エッジ画像とテンプレートのマッチングを行う。これにより、遠景における建物の姿勢を精密に求めることができる。本研究で提案する認識手法を用いることで、図1に示すような遠景のシーンの認識が実現される。デイジタル地図には、実世界における建物の2次元的な位置情報を示す空間位置情報が存在するが、建物に対するテクスチャ情報が十分含まれているとは言えない。そして、建物の高さに関する情報としては建物の階数しか入手できない。そこで、これらの情報を利用することにより、各建物のテクスチャなどの情報を獲得することができ、ここで獲得できた情報を地図に付加することでテクスチャをつけた建物のモデルを構築することが可能となる。実験を通して、本研究で提案した手法により、建物の高さの情報をより精密に測量できることが確認された。また、画像から存在すべき建物が検出できなければ、その箇所での異変を検知することができ、何が起こっているかを推定することもできると考えられる。図1:認識された遠景のシーン　第4章では、近景シーンに対して、目印となる建物の固有空間を生成し、入力画像を固有空間に投影することにより、入力画像における建物の認識を行う手法を提案する。また、入力画像から特徴領域を分割し、シーンの構造を記述する方法および、記述された画像の構造と町のモデルとのマッチングによるロケーティングの実現について検討する。本研究では、市街地シーンの認識を支援するため、建物のモデルを蓄積するモデルデータベースを構築した。扱うオブジェクトが多いため、モデルデータベースに各々蓄積された全ての建物のモデルと画像の特徴をマッチングすることは望ましくなく、可能性の高い建物のみを検索する。そこで、画像領域の特徴でモデルデータベースにインデックス付けることで、適当な候補を得、さらに、固有空間法を利用することより、よりロバストな認識結果を求めることができる。具体的には、一つの建物のみを写している画像を対象に、固有空間法を用いた建物の同定を行なった。建物の同定は建物の固有ベクトルを予め生成しておき、入力画像から得られる固有ベクトルと比較することで実現する。またあわせて、複数の建物があるシーンに対して、入力画像からエッジに基づいた分割方法を用いて建物領域を分割し、シーンの構造を記述する。分割された建物領域を入力の画像として、前述の固有空間手法を用いて、この領域が対応している建物を認識できるが、固有空間方法は建物の向きに敏感であるため、入力画像から抽出された建物の向きを学習に用いた建物の向きに合わせるする必要がある。そこで、エッジの分布情報に基づいてaffine変換により抽出された領域を学習に用いた建物の向きに変換する。また、本研究で扱う建物の数は非常に多く、色やテクスチャが類似する建物が多く存在するため、全ての建物の固有空間ベクトルをモデルとすることは、認識の効率と信頼性の点でよくない。そこで、抽出されたそれぞれの特徴領域を一つの建物領域として、色相から得られる色相特徴IDで領域の特徴を記述し、エッジ分布に基づいてこれらの領域間の前後関係を記述する。これにより、近景のシーンは隣接領域の特徴IDリストで記述される。一方、地図における道路側の建物の情報に基づき、建物隣接関係を表す建物データベースを構築する。このデータベースにおいて、それぞれの建物は色相特徴IDで記述される。また、交差点と交差点の間の道路に面した建物群を一つにまとめて扱い、それぞれの建物群は、色相特徴IDリストおよびその正面画像の固有空間ベクトルで記述される。画像から抽出された色相特徴IDのリストで、この建物データベースを検索することにより、適当な候補が得られる。正面画像に変換された建物領域を、得られた候補の固有空間に投影することにより、どこで撮影したシーンであるかというロケーティングを実現する。　第5章では、本研究のまとめについて述べ、本論文の結論とする。
審査要旨		本論文は、「市街地画像における対象物の認識と位置特定の研究」と題し、人間・社会活動の基盤である都市空間における映像を対象としたマルチメディアデータベースに関連して重要である建物等の対象物の認識方式や、対象物の位置特定方式の一連の研究についてまとめたものであり、英文5章から構成されている。　第1章は「序章」であり、本研究の背景、目的について述べている。　第2章「関連研究」では、従来のコンピュータビジョン技術による各種の対象物の認識方式を概説すると共に、市街地画像を対象とする場合の問題点を分析している。　第3章は「遠景市街地シーンの認識方式」と題し、カメラと対象物の距離が大きい市街地シーンを対象に、地図からのモデルと対象画像からのシルエットパターンとを利用した対象物認識方式を提案している。先ず、対象市街地画像から空と建物の境界パターンを抽出し、これと既存の地図データベースから生成した境界パターンとを誤差の補正を導入したDPマッチング法により最適対応付けを行なっている。次に、この対応付けを初期値として、3次元オブジェクトのモデルから生成された2次元テンプレートマッチングにより詳細な対応付けを行なう手法を示している。更に実際の市街地画像を対象に評価実験を行ない、認識や位置同定における有効生を示すと共に、建物などの高さ情報もより精密に得られることを示している。　第4章は「近景市街地シーンの認識方式」と題し、市街地路上等からのカメラと対象物の距離の比較的小さいシーンを対象に、目印建物の固有空間への投影を用いた、建物の認識、位置同定方式を提案している。先ず、市街地シーンの認識のベースとなる建物モデルデータベースを構築している。データベースは2段階の構造をもち、第1は建物の色相やエッジ分布の特徴を用いたものであり、第2はよりロバストな照合を行なうための固有空間法を用いたものである。次に対象画像から建物部分を抽出する手法を開発し、合わせて、エッジ分布等の画像の構造解析に基づくアフィン変換を行なって固有ベクトルによる照合の安定化をはかる手法を開発している。また、複数個の目印建物の空間関係を用いてカメラ位置などの位置同定を行なう手法を開発している。更にこれらの手法を実装し、実際の近景市街地シーンに対しての適用実験により高い信頼度で目印建物の認識が行なえることを示し、方式の有効生を明らかにしている。　第5章は「終章」であり、本研究の成果が要約されていると共に、今後の課題を明らかにしている。　以上、これを要するに、本論文は都市空間における市街地シーン画像を対象に建物の認識や位置同定を高能率に行なう一連の方式を提案し、市街地での状態を考慮した適用方式を実現すると共に、その有効性について実例を持って検証したもので、電子情報工学上貢献するところが少なくない。　よって、本論文は東京大学大学院工学系研究科電子情報工学専攻における博士(工学)の論文審査に合格と認められる。
UTokyo Repositoryリンク