内容要旨 | | 我々人間にとって,視覚系を通して得られる情報から外的3次元世界を理解することは容易である.しかしながら,計算機にとってこのことは容易でない.視覚情報から外的3次元世界を理解するための計算原理はまだ確立されていない.コンピュータビジョンや画像理解は,外界を知覚する人間の視覚認識の機能を工学的に実現しようとする分野であり,既存の画像入手システムによって得られる2次元情報から3次元世界を計算機にいかに理解させるかを研究する分野である.そして,これは過去20年以上にわたって精力的に研究されてきた分野の一つである.とりわけ,物体認識は理論と応用の双方の面でコンピュータビジョンにおける重要な課題となっている.そこでは,外界をうつした画像から,画像中の注目している物体を同定することが課題である.幾何学はこの問題に対するもっとも有効な道具として利用され,活用されてきた.実際,3次元空間中の物体が画像面上に投影されるようすを幾何学の問題として捉えそれを解析することが,物体認識の研究を進める上での主流となっている.本論文は物体認識におけるいくつかの幾何学的要因に注目し,空間と画像の幾何学的関係を代数的手法によって解析したものである. 物体認識における手続きは,主に三つに分けられる:i)各物体をデータベースに蓄積するためにその物体の幾何モデルを作成する,ii)画像が与えられると,データベース内からその画像に現れている物体の候補を生成する,iii)各候補に対して,与えられた画像がその候補から得られたものであるかどうかを検証し,その画像に現れている物体を同定する.本論文社三つのパートで構成され,各パートで上記の各手続きにあらわれる重要な問題を取り上げ,それを解析する. パートIでは,物体の幾何モデルを作成する際の中心的な問題である,運動からの形状復元問題について述べる.そして,空間中で独立に運動している2平面の投影像から,領域分割を介さずに,各平面の形状と運動を復元することができることを示す.2平面上の17点(ただし1平面上には少なくとも7点存在)を観測すれば,2枚の投影像間の点対応から,各平面の法線ベクトルと各平面の回転,および,並進運動のパフメタを復元することができる.従来,複数の物体が存在する画像には,単一物体のみを含むよう画像を領域分割することにより対処してきたが,領域分割は困難な問題である.ここでは,領域分割をおこなわず,複数の物体が存在する画像を直接扱うことによって領域分割における問題を回避した. パートIIでは,同定すべき物体の候補を効率的に生成するためのカギとなる代数的不変量について述べる.そして,空間的に存在する直線の投影像を観測すれば不変量を求めることができることを示す.空間中に存在する2平面上の5直線,および,3平面上の6直線に対して,それぞれ不変量が存在する.さらにこの不変量をn次元の場合に拡張し,この二つの不変量は一つの手法によって系統的に導出できること,その手法で導出される関数的に独立な不変量は他に存在しないことを示す.従来,3次元物体の不変量を求めるには物体を平面領城に分割し,その平面領域に対する不変量を求めていたので,物体の3次元構造が破壊されていた.しかし,本論文で示した不変量は3次元物体そのものを対象としているため,物体の3次元的構造を破壊することなくその値を計算することができる. パートIIIでは,それぞれの候補を検証する問題,すなわち,与えられた画像が注目している候補から得られたものであるかどうかを判定する問題について述べる.そして,透視変換を半透視変換で近似することによって,数枚の投影像があれば,同じ物体の任意の投影像をそれらの線形結合によって表すことができることを示す.これにより,線形最小二乗法を適用しその残差をみることによって,注目している候補が同定すべき物体であるか否かを判定することができる.従来,ポーズをまず決定しそれに基づいて物体の幾何モデルを画像上に投影することで幾何モデルと与えられた画像を照合していたが,ポーズの決定は困難である.しかし,ここでの結果を利用すれば,各物体に対して数枚の投影像を用意しそれらを物体のモデルとすることにより,物体のモデルと与えられた画像を直接照合することができるので,ポーズを決定する必要がなくなる. これらの結果はすべて物体認識をおこなう上で有用であり,これらの結果と他の結果を結びつけ統合することにより,さらに完全で有効な物体認識システムを構築することができる. |
審査要旨 | | 人間にせよ機械にせよ視覚系にあっては,外的世界を一度2次元の像空間にレンズ系を用いて投影し.得られた2次元像の解析を通して外界の3次元動的構造を認識している.投影は当然情報損失を伴うが.外界においていくつかの対象物体が平面要素から構成されていたり変形なしに剛体運動をしているなどの構造的情報が利用できる場合には,情報損失をある程度回復して外界の認識が可能になる.本研究は外的物体構造の認識に関するこのような基本的な問題を研究するために.視覚系における幾何学的な構造を対象としてその代数的な解析を試みたものである. 本論文は,まえがき,序論,本文5章,結論,参考文献および付録からなっている. 序論は,計算論的画像理解の枠組を述べてその中での本論文の立場を明らかにすると共に,3次元空間中の物体が画像面上に投影される仕組みを幾何学的側面に重点をおいて定式化し,さらに本研究の目的と背景を述べている. 引き続く本文は3つの部に分けられる. 第1部は,外界の物体の幾何モデルを構成しそのもとでその3次元構造を復元する際に生じる問題を扱っている.これまで,複数の物体が存在するという条件下で2次元画像から物体の3次元情報を復元するには,単一物体のみを含むように画像を領域分割するという前処理が行われてきた.そのため3次元情報の復元の精度は,前処理である領域分割の結果に大きく依存していた.本論文は,動的外界における画像間の対応点を利用することにより.領域分割を行なわずに直接に物体の3次元情報を復元する試みを行なっている.すなわち第1章で,空間中で独立に運動している2平面の形状とそれらの運動を復元する問題を取り上げ,領域分割を行うことなく対応点を利用することにより.この問題を解くことに成功した.一般に,1平面が7点以上を含む2平面上の17点を二つの異なる時点で観測すれば,2枚の投影像間の点対応から,各平面の法線ベクトルと運動パラメタを復元するアルゴリズムを示した.また,2平面上の点をいくら観測してもその形状と運動を復元することができない特殊な構造をもった位置関係にある2平面の存在を明らかにした. 第2部は,画像生成の視点の変化によって生じる画像の変動には影響されない不変量を研究している.不変量に着目すれば,与えられた2次元画像がデータベース内に登録されている異なる視点からの物体のどれに対応するかを調べる際に.その候補を生成する手間を大幅に削減することができる. まず第2章で,物体がカメラによって画像面上に投影される仕組を幾何学的に捉えるモデルについて述べている.ユークリッド空間を射影空間に埋め込むことにより,このモデルは3次元から2次元への射影変換の全体と同相になる.第3章で,このモデルのもとで,平面群上に乗る直線に対する不変量の存在を考察し,2平面上の5直線,および,3平面上の6直線が観測できる画像に対して,それぞれ視点によらない不変量が存在することを示した.さらに,実際にこれらの不変量の値を計算するとき,その値が数値的に安定するための条件を与えた. 第4章ではさらに,この不変量を一般の高次元の場合に拡張し,これら二つの不変量は一つの手法によって系統的に導出できること,またその手法で導出される関数的に独立な不変量は他に存在しないことを明らかにした. 第3部は,物体の候補を与えるモデルと画像とを照合しこれによって物体を同定する問題を扱っている.これまでの方法は,視点と物体との相対位置をまず決定し,それに基づいて物体の幾何モデルを画像上に投彰することで,与えられた画像をモデルと照合していた.しかし,この相対位置の決定は困難な問題である.そこで第5章で,透視変換の近似として半透視変換をとりあげ,この変換下で,視点と物体との相対位置を決定せずに物体の同定を行なうことが原理的に可能であるか否かを研究した.そのために半透視変換の数学的意味を考察し,平行透視変換は透視変換の1次近似であることを明らかにした.次に,半透視変換下では,空間内での点の位置と視点とを分離して点の像を記述することができることに着目し,3枚の投影像があれば,同じ物体の任意の投影像をそれらの線形結合によって表せることを示した.この結果,線形最小二乗法を適用しその残差をみることによって,視点と物体との相対位置を決定することなく物体の同定を行なえることが明らかになった. 結論では,本論文の成果を要約している. これを要するに.本論文は外界の3次元構造とその射影変換である2次元投影像との間の構造的関係を代数的に表現し.この表現を外界構造の認識に利用する手法を開発したもので.数理工学上貢献するところが大きい。よって本論文は博士(工学)の学位請求論文として合格と認められる. |