学位論文要旨



No 213331
著者(漢字) 植之原,道宏
著者(英字)
著者(カナ) ウエノハラ,ミチヒロ
標題(和) 姿勢変化や照明変化にロバストな実時間物体認識とその応用に関する研究
標題(洋)
報告番号 213331
報告番号 乙13331
学位授与日 1997.04.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13331号
研究科 工学系研究科
専攻 機械情報工学専攻
論文審査委員 主査: 東京大学 教授 三浦,宏文
 東京大学 教授 杉原,厚吉
 東京大学 教授 池内,克史
 東京大学 助教授 下山,勲
 東京大学 助教授 溝口,博
内容要旨

 画像処理による実時間物体認識はさまざまな分野に応用できる大きな可能性を持った分野であり,さかんに研究が行われている。ところが実用に達しているのは2次元の画像処理でしかも照明条件などの諸条件を設定することが可能な工場ラインなどに限られているのが現状である。その主な原因は,姿勢変化や照明条件の変化によりその画面内での見え方が変化することである。対象物を認識するという行為は,基本的にモデルとのマッチングに帰着できる。画像処理による物体認識では,画像内の物体の見え方とモデルとのマッチングをとることになるが,同一の物体でもその姿勢やまわりの照明条件により見え方が変化してしまうために,単純にひとつのモデルとのマッチングをとることでは,さまざまな姿勢・照明条件での物体を見つけることができない。

 しかし,姿勢・照明の変化により無秩序に画像が変化しているわけでなく,変化する成分は特定の成分に限定されている。本研究では,姿勢変化に対して不変な量や画像から抽出される変化する成分のみを利用することにより,物体姿勢の変化や照明の変化にもロバストな高速実時間物体認識が実現できることを示す。

 姿勢の少しずつ異なる対象物の画像群、あるいは照明条件の少しずつ異なる画像群のKarhunen-Loeve(K-L)変換により求められた固有ベクトルで張られる線形部分空間全体を検出すべき物体画像の集合とみなす。

 

 ejは物体画像群からK-L変換により求められた固有ベクトルである。

 上記線形部分空間に含まれる画像の中で,入力画像と相関値が最も大きくなる画像は,入力画像の上記線形部分空間への射影である。従って,入力画像と上記線形部分空間とのパターンマッチングを,入力画像のこの線形部分空間への射影と入力画像自身の正規化相関値が最大になる箇所を求める作業と定式化することができる。平均が0となるように正規化した入力画像ベクトルをとすると,上記線形部分空間との正規化相関の値は以下のように計算される。

 

 以上の定式化によりFourier変換とK-L変換の組み合わせによる高速化が可能になり,姿勢のわからない物体を画面全体から探すという膨大な計算を非常に高速に実行することが可能になる。入力画像のサイズがN×Nであり,固有ベクトルの数がKである際に,本手法により画像全体から対象物を探索するのに要する計算量は

 

 となる。一方,テンプレートサイズをM×Mとすると,画面内の各場所においてP個のテンプレートとの正規化相関計算を行い,入力画像全体から対象物を探索するためには,

 

 の計算量を必要とする。N=256,M=32,P=100,K=10のとき1000倍の高速化となる。

 次に画像の幾何学的不変量として知られている同一平面内での5点から計算される不変量やモーメント量などを,正しくトラッキングされているかどうかの判定に用いることにより,ロバストなトラッキングが実現できることを示す。

 信頼性のあるビジュアルトラッキングを実現するために最も重要となる点は特徴点の追跡(トラッキング)の信頼性である。信頼性のある特徴点のトラッキングが実現できれば,残りは特徴点の座標値から物体の3次元位置・姿勢を算出するだけである。

 ・画面間での特徴点の位置の近接度

 ・特徴点のパターンの類似度

 ・特徴点の間の幾何学的な位置関係に成り立つ拘束条件

 などの情報が信頼性を上げるために利用である。上記三点のうち,はじめの二点については,多くのビジュアルトラッキングのシステムにおいて利用されている情報である。しかし,特徴点の幾何学的な位置関係の間に成り立つ拘束条件については ビジュアルトラッキングにおいてはほとんど用いられてこなかった。

図1 不変量を用いた正しく追跡された特徴点の選択

 各特徴点の相対的位置関係は物体が移動するにつれて変化してゆくが,複数の特徴点の座標値から計算されるさまざまな幾何学的特徴量が視点の変化に対して不変であることが知られている。これらの不変量を計算することによりトラッキング結果の正否判定を行うことにより,ロバストなトラッキングが実現できる。また,その際には不変量の感度も考慮することが重要であることも示す(図1)。

 これらの手法を用いて実現した応用例として,画像処理によるオーグメンティドリアリティシステムを示す。オーグメンティドリアリティとは,現実の世界の映像に仮想の現実であるコンピュータグラフィックス像をスーパインポーズすることにより,さまざまな有用な情報を提供するものである。

 これまでのオーグメンティドリアリティの研究例では,頭位磁気センサを用いてユーザの頭の動きを検出するとともに,対象物の位置は超音波センサ等で検出し,座標変換計算を行うことによりユーザの視点での対象物位置を算出していた。これに対してユーザの視線にカメラを設置して画像処理により対象物の位置を検出すればユーザの視点での対象物位置が直接得られることになる。その結果、ユーザが視点をいろいろ変化させてもスーパインポーズされるグラフィックスはまるで本当に対象物についているように見えることになる(図2)。PCおよび模型の足を対象物として,複数DSPの並列処理により実時間でのトラッキングを行い,コンピュータグラフィックス像のスーパインポーズを実現した結果を示す。トラッキングの検証には不変量を計算することにより正しく検出された特徴点を検出している。また,トラッキングを開始する最初の認識には,さまざまな照明条件のもとであらかじめ取得された画像をK-L変換しておき,それら固有ベクトルから構成される部分空間への写像と入力画像との相関計算によるパターンマッチングを行うことにより,照明条件にロバストな初期認識を実現している。

 最後に実時間の画像処理による物体認識の応用として代表的なもののひとつはロボットであるが、移動物体の追跡・捕獲におけるロボット目標値の生成戦略と宇宙ロボットによる移動目標物の捕獲実験結果を示す。ロボットにより作業を行うためには,物体の位置情報からロボットの目標軌道を生成することが必要となる。さまざまな運動をする物体を取り扱うためには,どのような目標軌道を生成するかという戦略が重要になる。一般性をもつ戦略として相対速度を0にして捕獲するための無駄のない滑らかな軌道として以下の評価関数を最小とする軌道を考える。

図2 画像処理によるオーグメンティドリアリティの実現

 

 物体が等速度運動しているとすると,上記の評価関数を最小にするロボットの加速度を求めることは非斉次のレギュレータ問題として定式化され,以下の解が得られる。

 

 画像処理により物体位置を得て,ロボット目標位置との偏差および速度の偏差を算出すると,容易に新たな目標加速度が算出される。また数値積分してゆくことにより,目標速度および位置が得られる。本軌道生成法は各時刻での目標物体の位置と速度から,その時刻の軌道の値を毎制御周期計算しているので,等速度運動している物体に対して評価関数を最小とする軌道として導出されているが,運動物体の動きの変化にも即座に対応した軌道が生成される。また試作した宇宙ロボット試験装置による移動対象物の捕獲実験を示す。

審査要旨

 本論文は「姿勢変化や照明変化にロバストな実時間物体認識とその応用に関する研究」と題し7章からなっている。

 同じ物体でも、姿勢の変化や照明の変化により見え方が変化する。しかし、姿勢・照明の変化により無秩序に画像が変化しているわけではなく、変化する成分は特定の成分に限定されている。本研究では、姿勢変化に対して不変な量や画像から抽出される変化する成分のみを利用することにより、物体姿勢の変化や照明の変化にもロバストな高速実時間物体認識が実用されることを示している。また、さまざまな姿勢での物体画像とのパターンマッチングをこれまでの研究成果よりさらに高速化できることを示すと共に、不変量をトラッキング結果の判定に用いることにより、物体の一部が隠れている状態でもトラッキングし続けられるロバストなトラッキングの実現についても述べられている。

 第1章「序論」においては、まずパターンマッチングにおける物体の姿勢変化への対応の困難さについて述べている。例えば、画像のサイズが256×256で、テンプレートのサイズが16×16、姿勢変化に対応するためにテンプレートの数が100であるとすると、相関計算によって、対象物を画像全体から探すためには、240×240×16×16×100=1474560000回の積和計算が必要になる。これはそのまま実行するには余りにも膨大なので、いかに要領よく探索段階を省略できるかが最大の課題なのである。ここでは、姿勢の変化に対しては不変量があること、画像が変化する成分も特定の成分に限定されることなどについて、従来の研究例を上げて説明し、本研究の目的と論文の構成について述べている。

 第2章「数学の定義」においては、本研究に用いられる数学手法であるKarhunen-Loeve変換(K-L変換)と離散コサイン変換について説明している。K-L変換は、パターン認識や画像圧縮などの分野において、ひとつひとつの大きなデータをそのまま巨大な次元を有する空間の中のひとつの点として扱うに代りに、より小さな次元の部分空間に投影するのに用いられる。小さな次元の部分空間に投影することにより、データの特徴の主要部分のみを取り出す効果があり、計算時間や転送時間が短縮されるだけでなく、パターン認識の際にはノイズの影響を受け難くする効果もある。

 離散コサイン変換(DCT)は、音声、テレビ信号、カラー画像データ圧縮に広く用いられているもので、コサイン関数のみを基底関数として用いるフーリエ変換である。変換後も実数であること、直交変換であることなど数々のよい特性を有している。

 第3章「フーリエ変換とK-L変換による多数のテンプレートとのパターンマッチングの高速化」においては、フーリエ変換とK-L変換を用いることにより、画面全体から、あらかじめ姿勢のわかっていない目標物体を高速に検出する方法を導出している。

 さまざまな姿勢での物体画像をK-L変換することにより、少数の固有ベクトルを求める。それらの固有ベクトルで張られる線形部分空間全体を検出すべき物体画像の集合とみなして、入力画像と物体画像集合とのパターンマッチングを、入力画像のこの部分空間への射影と入力画像自身のパターンマッチングと定式化している。この定式化により、フーリエ変換とK-L変換の組み合わせによる高速化が可能になり、姿勢の分からない物体を画像全体から探すという膨大な計算を非常に高速に実行することが可能になっているのである。

 第4章「幾何学的不変量を用いたトラッキング結果の判定とトラッキングの信頼性向上」においては、幾何学的な不変量(Geometric Invariants)を用いることにより、ビジュアルトラッキングの信頼性を上げる方法が述べられている。コンピュータビジョンの分野では、射影変換のもとでの不変量として代表的なものは、同一直線上にある四点間の距離の相対的な比や、同一平面上にある五点から計算される四つの三角形の面積の相対的な比の値である。これらは、透視変換モデルのもとで、どのような三次元的な位置や姿勢の変化によっても値が変化しない量である。これらを観測するとにより、比較的小さな計算量で、正しく位置が求められた特徴点のみを選択することが可能となる。その際、不変量の感度を考慮して特徴点の選択方法を提案しているのも本論文の成果である。

 第5章「画像処理を用いたオーグメンティドリアリティ」においては、高速な画像処理による物体認識を応用した例として、コンピュータビジョンによるオーグメンティドリアリティの実現例を示している。オーグメンティドリアリティとは、現実の世界の映像に、仮想の現実であるコンピュータグラフィック像をスーパーインポーズすることにより、さまざまな有用な情報を提供しようというものである。本研究では、ユーザーの視線にカメラを設置して、画像処理により対象物位置を検出し、ユーザ視点での対象物位置を直接得ようとしている。実時間で対象物の位置を検出してスーパーインポーズする位置を修正してゆくことができるので、ユーザー視点をいろいろ変化させてもスーパーインポーズされるグラフィックスはまるで対象物についているように見えるという実験結果を得ている。機械装置の組立てや保守点検のためのビジョンによるインストラクションシステムなどへの応用可能性が考えられる。

 第6章「画像処理結果からのロボット目標値の生成とロボットによる移動目標物の捕獲」においては、実時間の画像処理による物体認識の応用として代表的なもののひとつであるロボットによる移動物体の追跡・捕獲におけるロボット目標値の生成戦略と宇宙ロボットによる移動目標物の捕獲実験結果を示している。

 ロボットにより作業を行うためには、物体の位置情報からロボットの目標軌道を生成することが必要となる。さまざまな運動をする物体を取り扱うためには、物体の動きを検出するだけでなく、どのような目標軌道を生成するかという戦略が重要になる。戦略としてはさまざまなものが考えられるが、一般性をもつ戦略として相対速度を0にして捕獲するための無駄のないなめらかな軌道を考え、動きが予測できる範囲内でどのような動きをしている物体に対しても適用可能な軌道生成法を導出するという基本的な考え方が適用されている。実時間の画像処理と目標軌道の生成法の組み合わせにより、ロボットによりさまざまな動きをする物体を追跡・捕獲することが可能になることを、試作した宇宙ロボット試験装置による移動対象物の捕獲実験により示している。

 第7章「結論」においては、以上を要約し今後の指針を述べている。

 以上を要約するに、本研究は、姿勢変化に対して不変な量や画像から抽出される変化する成分のみを利用することにより、物体姿勢の変化や照明の変化にもロバストな実時間物体認識が実現できることを実験を伴いつつ如実に示したもので、工学上、工業上有効なものであり、機械情報工学、ロボット工学に寄与するところが少なくない。よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク