画像処理による実時間物体認識はさまざまな分野に応用できる大きな可能性を持った分野であり,さかんに研究が行われている。ところが実用に達しているのは2次元の画像処理でしかも照明条件などの諸条件を設定することが可能な工場ラインなどに限られているのが現状である。その主な原因は,姿勢変化や照明条件の変化によりその画面内での見え方が変化することである。対象物を認識するという行為は,基本的にモデルとのマッチングに帰着できる。画像処理による物体認識では,画像内の物体の見え方とモデルとのマッチングをとることになるが,同一の物体でもその姿勢やまわりの照明条件により見え方が変化してしまうために,単純にひとつのモデルとのマッチングをとることでは,さまざまな姿勢・照明条件での物体を見つけることができない。 しかし,姿勢・照明の変化により無秩序に画像が変化しているわけでなく,変化する成分は特定の成分に限定されている。本研究では,姿勢変化に対して不変な量や画像から抽出される変化する成分のみを利用することにより,物体姿勢の変化や照明の変化にもロバストな高速実時間物体認識が実現できることを示す。 姿勢の少しずつ異なる対象物の画像群、あるいは照明条件の少しずつ異なる画像群のKarhunen-Loeve(K-L)変換により求められた固有ベクトルで張られる線形部分空間全体を検出すべき物体画像の集合とみなす。 ejは物体画像群からK-L変換により求められた固有ベクトルである。 上記線形部分空間に含まれる画像の中で,入力画像と相関値が最も大きくなる画像は,入力画像の上記線形部分空間への射影である。従って,入力画像と上記線形部分空間とのパターンマッチングを,入力画像のこの線形部分空間への射影と入力画像自身の正規化相関値が最大になる箇所を求める作業と定式化することができる。平均が0となるように正規化した入力画像ベクトルをとすると,上記線形部分空間との正規化相関の値は以下のように計算される。 以上の定式化によりFourier変換とK-L変換の組み合わせによる高速化が可能になり,姿勢のわからない物体を画面全体から探すという膨大な計算を非常に高速に実行することが可能になる。入力画像のサイズがN×Nであり,固有ベクトルの数がKである際に,本手法により画像全体から対象物を探索するのに要する計算量は となる。一方,テンプレートサイズをM×Mとすると,画面内の各場所においてP個のテンプレートとの正規化相関計算を行い,入力画像全体から対象物を探索するためには, の計算量を必要とする。N=256,M=32,P=100,K=10のとき1000倍の高速化となる。 次に画像の幾何学的不変量として知られている同一平面内での5点から計算される不変量やモーメント量などを,正しくトラッキングされているかどうかの判定に用いることにより,ロバストなトラッキングが実現できることを示す。 信頼性のあるビジュアルトラッキングを実現するために最も重要となる点は特徴点の追跡(トラッキング)の信頼性である。信頼性のある特徴点のトラッキングが実現できれば,残りは特徴点の座標値から物体の3次元位置・姿勢を算出するだけである。 ・画面間での特徴点の位置の近接度 ・特徴点のパターンの類似度 ・特徴点の間の幾何学的な位置関係に成り立つ拘束条件 などの情報が信頼性を上げるために利用である。上記三点のうち,はじめの二点については,多くのビジュアルトラッキングのシステムにおいて利用されている情報である。しかし,特徴点の幾何学的な位置関係の間に成り立つ拘束条件については ビジュアルトラッキングにおいてはほとんど用いられてこなかった。 図1 不変量を用いた正しく追跡された特徴点の選択 各特徴点の相対的位置関係は物体が移動するにつれて変化してゆくが,複数の特徴点の座標値から計算されるさまざまな幾何学的特徴量が視点の変化に対して不変であることが知られている。これらの不変量を計算することによりトラッキング結果の正否判定を行うことにより,ロバストなトラッキングが実現できる。また,その際には不変量の感度も考慮することが重要であることも示す(図1)。 これらの手法を用いて実現した応用例として,画像処理によるオーグメンティドリアリティシステムを示す。オーグメンティドリアリティとは,現実の世界の映像に仮想の現実であるコンピュータグラフィックス像をスーパインポーズすることにより,さまざまな有用な情報を提供するものである。 これまでのオーグメンティドリアリティの研究例では,頭位磁気センサを用いてユーザの頭の動きを検出するとともに,対象物の位置は超音波センサ等で検出し,座標変換計算を行うことによりユーザの視点での対象物位置を算出していた。これに対してユーザの視線にカメラを設置して画像処理により対象物の位置を検出すればユーザの視点での対象物位置が直接得られることになる。その結果、ユーザが視点をいろいろ変化させてもスーパインポーズされるグラフィックスはまるで本当に対象物についているように見えることになる(図2)。PCおよび模型の足を対象物として,複数DSPの並列処理により実時間でのトラッキングを行い,コンピュータグラフィックス像のスーパインポーズを実現した結果を示す。トラッキングの検証には不変量を計算することにより正しく検出された特徴点を検出している。また,トラッキングを開始する最初の認識には,さまざまな照明条件のもとであらかじめ取得された画像をK-L変換しておき,それら固有ベクトルから構成される部分空間への写像と入力画像との相関計算によるパターンマッチングを行うことにより,照明条件にロバストな初期認識を実現している。 最後に実時間の画像処理による物体認識の応用として代表的なもののひとつはロボットであるが、移動物体の追跡・捕獲におけるロボット目標値の生成戦略と宇宙ロボットによる移動目標物の捕獲実験結果を示す。ロボットにより作業を行うためには,物体の位置情報からロボットの目標軌道を生成することが必要となる。さまざまな運動をする物体を取り扱うためには,どのような目標軌道を生成するかという戦略が重要になる。一般性をもつ戦略として相対速度を0にして捕獲するための無駄のない滑らかな軌道として以下の評価関数を最小とする軌道を考える。 図2 画像処理によるオーグメンティドリアリティの実現 物体が等速度運動しているとすると,上記の評価関数を最小にするロボットの加速度を求めることは非斉次のレギュレータ問題として定式化され,以下の解が得られる。 画像処理により物体位置を得て,ロボット目標位置との偏差および速度の偏差を算出すると,容易に新たな目標加速度が算出される。また数値積分してゆくことにより,目標速度および位置が得られる。本軌道生成法は各時刻での目標物体の位置と速度から,その時刻の軌道の値を毎制御周期計算しているので,等速度運動している物体に対して評価関数を最小とする軌道として導出されているが,運動物体の動きの変化にも即座に対応した軌道が生成される。また試作した宇宙ロボット試験装置による移動対象物の捕獲実験を示す。 |