学位論文要旨



No 215437
著者(漢字) 長尾,健司
著者(英字)
著者(カナ) ナガオ,ケンジ
標題(和) 物体認識のための局所的/大域的不変特徴
標題(洋) Local and Global Invariants for Object Recognition
報告番号 215437
報告番号 乙15437
学位授与日 2002.09.19
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第15437号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 池内,克史
 東京大学 教授 坂内,正夫
 東京大学 教授 新井,民夫
 東京大学 教授 相澤,清晴
 東京大学 助教授 佐藤,洋一
内容要旨 要旨を表示する

概要

 本論文では画像を用いた物体認識のための不変特徴抽出の問題を扱う。幾何学的、或いは、フォトメトリックな物体認識、さらには、統計的パターン認識において、不変特徴を導入し、それらの適用可能性と有効性について議論を与える。 最初に、幾何学的な不変特徴であるアフィン不変特徴を導入し、 それを用いた平面物体の認識アルゴリズムについて述べる。続いて、幾何学的特徴の抽出過程において失われた、物休表面の反射特性(カラー)の情報を利用し、幾何学的不変特徴との組み合わせによって、適用可能な物体クラスの拡大を試みる。また、顔画像認識において、照合する画像間の変動を取り除くための新しいパターン認識法を導出する。さらに、扱える画像変動のクラスをシステマティックに拡大していくための新しい枠組みを導く。剛体認識や顔画像認識の実験を通して、提案された不変特徴の有効性を検証する。

1はじめに

 画像を用いた物体認識[3]の中心的なテーマの一つは、物休を記述するための不変特徴の選択とその適用の方法にある。本論文では、既存の、或いは、ここで新規に提案する幾つかの不変特徴の物体認識への応用と、不変特徴の採用基準となる適用可能性(或いは適用範囲)や有効性に関する議論に焦点をおく。扱われる物体認識の応用問題は、剛体認識と顔認識である。

 上述において、不変特徴の適用範囲、即ち、扱える物体認識問題のクラスは、不変特徴が対象とする画像変動のクラスの範囲によって決定される。一方、不変特徴の有効性とは、そのような選択されたクラスの画像変動下において、認識の観点から不変特徴がいかに有効に機能するかを指す。筆者らは、さらに、この有効性は不変特徴の不変性(恒常性)と選択性(識別性)、或いは、計算論的効率などからなると考える。

 筆者らの主張は、実用的な物体認識システムの構築には、広い適用範囲と高い有効性の両方を兼ね備えた不変特徴が必要であるという点である。画像変動には、幾何学的変換[3]のようにある種の明示的な関数のクラスで表現されるものと、アピアランスマッチングによる物体認識法[7]や、顔画像認識のためのEigenface法[9]が扱ったような、明示的には表現しがたい画像変動がある。後者の場合は、画像変動は、同一実体を表すデータ集合の統計量(共分散)などによって表現される。変動が数学的な観点において明示的であれ、非明示的であれ、より広いクラスの画像変動に対して、物体認識の観点からより有効に機能するような不変特徴を、筆者らは大域的な不変特徴と呼ぶ。

2剛体認識のためのアフィン不変特徴

 幾何学的不変特徴の一つであるアフィン不変特徴を用いた平面物体の認識について述べる。

 幾何学的物体認識[3]の中心的プロセスは、物体の表現(モデル)である局所幾何学特徴のセットと、入力画像中から抽出された局所特徴セットの間の幾何学的変換パラメタの復元である。アプローチは、基本的に、特徴点対応の仮説と検定による網羅的探索であるため、容易に組み合わせ爆発が生じる(最悪時間計算量は特徴点数の6乗のオーダ、特徴点数は一般に数百〜数千)。この計算論的な課題を解決するのが本章の目的である。

2.1画像変動と不変性・選択性

 幾何学的物体認識が扱う変動は、カメラと物体との相対運動をである。一般に、これにはフォトメトリックな変動を伴うが、これは、初期の局所特徴の抽出過程において取り除かれる。この意味で、幾何学的物体認識は、フォトメトリックな変動にも対応している。しかし、この初期プロセスは、同時に、物体表面の反射特性などの物体固有の貴重な情報を棄ててしまう。即ち、特徴の不変性は確保されるものの、選択性が犠牲となる点に注意を要する。

2.2アフィン不変特徴と平面物体認識

 ここで用いるアフィン変動の性質は、次のものである。

【定理1】[1]点集合{X}がアフィン変換L(X)によって{X'}に写されるとする。XとX'の共分散行列をそれぞれ白色化する(共分散を単位行列に変換する)アフィン変換A,A'(det[A],det[A']>0)によって、これらの像Y,Y'は、直交変換の自由度を残し、不変となる。〓

 これは、平面物体の場合、上記白色化変換によって、それぞれ対応していた点が回転変換によって重なることを意味する。この性質の重要性は、他のアフィン不変特徴の導出可能性に関わる以下の定理によって確認される。

【定理2】もし利用可能な情報が点集合の2次以下の統計量であるならば、直交変換の自由度を残し不変性を与える唯一のクラスの線形関数が、白色化変換である。〓

 物体モデルには、輪郭上の高曲率点、変曲点を初期特徴として抽出し、上記白色化変換後に、回転不変のクラスタリング基準を用いて得られた特徴点クラスタの重心のセットを用いる。認識時は、同様に対象画像から抽出された特徴セットに対して、白色化変換、クラスタリングを経て、クラスタ重心を得たのち、モデルとの間でアラインメント(変換パラメタの推定と検定)を行う。

 図1に、平面物体モデルをテスト画像に重ねた結果を示す。非常に精度よく、パラメタが復元されていることがわかる(cf.[2])。処理速度は、SparcWs-IPXを用いた場合、数十ミリ秒(従来法では数十分から数時間)と、画期的な改善を確認した。

3フォトメトリック不変特徴

 幾何学的不変特徴にフォトメトリック不変特徴を組み合わせて、選択性の意味で有効性を向上させる方法を述べる。

3.1フォトメトリックな画像変動と不変特徴

 フォトメトリックな画像変動を引き起こす要因には、光源変動、物体の傾きの変化、カメラセンサーの違い、物体表面の形状や反射特性の経時変化などがある。これらの要因が引き起こす画像変動を明示的に表現することは一般には容易ではない。従って、不変特徴を導くために、様々な仮定を導入するが、これは、不変特徴の適用範囲の限定に他ならない。

 一方、そのような仮定を導入しない場合、不変性は得られても、特徴の選択性が犠牲となることもある。

3.2カラー不変特徴と拡張不変特徴

 異なったカラーバンドの出力比をもとに幾つかの仮定の下導出される不変特徴について述べる。画像内の点χにおけるκ番目のセンサーチャネルのレスポンスをρκ(χ)とし、以下のような仮定(モデル)を用いる。AS1:周波数帯域選択フィルタモデルに従うセンサー、AS2:狭帯域センサー、AE1:物体表面全体に渡って一貫した入射光、AE2:センサーの反応帯域において緩やかな強度変動を持つ光源、AE3:物体表面上の局所領域で一貫した入射光。

 仮定AS1&AE1&AE2、或いは、仮定AS2&AE1の下、カラーチャンネルi,jのレスポンスの比γij(χ)=ρij(χ)/ρj(χ)は物体表面全体に渡って一貫した、未知の固定スケールファクタCの自由度を除いて不変特徴である。さらに、仮定AS1&AE2&AE3、或いは、AS2&AE3のもと、物体上の隣接点に対応する画像位置χl,χmにおけるγij(χ)比をとることで、スケールファクタが取り除かれ、ψlmij=γij(χ)/γij(χm)が完全な不変特徴を与える。ここで、ψlmij=[ρi(χl)/ρi(χm)][ρj(χl)/ρj(χm)]と書き直されることから、点χlとχm選択には注意を要する。なぜなら、これらの2点が、類似した周波数反射特性を持つ点から選ばれてしまうと、ψlmijは不変性は有しても選択性に欠けるからである。

 上で導人されたフォトメトリック不変特徴を、前章で述べた幾何学的特徴と組み合わせ、クラスタ重心を抽出することで、拡張されたマッチング特徴を得る。カラーチャネル比不変特徴の選択性の効果で非常に安定で効率のよい特徴抽出が実現できる。

4パターンとその変動の弱直交化法

 この章以降では、画像変動の明示的表現が非常に困難な場合を扱う。ターゲットとする応用問題は顔認識、特に、経時変化を伴うケースに焦点をあてる。

4.1問題設定

 同じ人物の集合を含む、2つの顔画像セットI(1),I(2)間での、潜在的対応を推定する問題を考える。図2に扱う顔画像のサンプルを示す。スキャンライン順に5番目まで(順にサブセットA,B,C,D,E)、即ちセットI(1)の画像は、様々な照明条件の下、被験者をビデオ画像で直接撮影したものである。一方、6番目(サブセットP)、即ちセットI(2)は、同一人物の免許証の写真を、再度撮影して獲得したもので、撮影時期は最大3年前に遡る。図に見られるように、同一人物にも拘わらず、画像間には極端な変化が見られる。これほど異なった条件で獲得された顔画像間での認識は従来扱われていない。

4.2摂動特徴空間:画像変動の表現

 画像の各画素が直交座標系を構成する高次元画像空間において、異なった人物の顔画像サンプルの集合は、比較的低次元(例えば数百次元)の部分空間(正確には多様体)によって表現されることはよく知られている[9]。この空間は、対象物体(人物顔)の違い、即ち、選択性を強調する空間であるため、しばしば顔(特徴)空間と呼ばれる。

 一方、前節で述べたような照合の対象となる画像間に存在する、撮影時期の隔たりや画像生成プロセスの違いに起因する個人の顔画像の変動を表現する空間を、筆者らは、摂動特徴空間と呼ぶ。これが、顔画像認識における画像変動の表現にあたる。

4.3顔パターンとその変動成分の弱直交化法

 顔特徴空間から、前節で導入した摂動特徴の成分を取り除き不変特徴を抽出するための弱直交化法について述べる。これは、1970年代前半に、Fukunagaら[6]によって開発された直交部分空間法を拡張したものである。

【定義:弱く直交化された部分空間】

 2つの確率分布{X1}and{X2}の共分散行列Σ1,Σ2それぞれの固有ベクトルが完全に共有され、対応する固有値の順位が互いに逆転しているとき、これらの分布は弱直交化されているという。〓

 このような弱直交化された分布の導出は、2つの分布の共分散行列に関わる次の数学的性質を利用している。

【性質1】 2つの共分散行列の同時対角化変換によって、変換後の共分散行列は、固有ベクトルが共有される。

【性質2】 変換後の空間に対して、さらに適切なスケール変換を適用することで、2つの共分散行列は、固有ベクトルを共有し、対応する固有値λ(1)'λ(2)'には以下の関係が成立する。

λ(1)lmi+λ(2)lni(1)

λ(1)li.λ(2)li(2)

式(1)において、n=1は、Fukunagaらの結果[6]に等しい。式(2)は、変換後の共分散行列が、互いに逆行列になることを,意味する。

 以上のように、同時対角化変換と対角成分の適切な再変換によって、弱直交化された部分空間が得られる。この操作を、顔特徴分布と摂動特徴分布に適用し、変換後の顔特徴空間の主軸(大きい固有値に対応)によって張られる空間を抽出することによって、不変性と選択性を併せ持つ不変特徴空間が得られる。

5混合分布における不変特徴

 本章では、さらに広範な画像変動に対応できる不変特徴抽出の新しい枠組みを導入する。

5.1顔画像空間の混合分布モデル

 まず、顔画像空間を幾つかの要素分布よりなる混合分布でモデル化する。簡潔さのために、この論文では、まず、照合する2つの画像セット(前章参照)に対応して、要素分布Ω(1),Ω(2)を持つものと仮定する。

 要素分布内の画像変動の主要ファクタは、光源変動である。このとき、ありうる顔画像サンプルの集合は、高次元画像空間において、照明錐体(illumination cone)を形成し[4]、それが線形分離可能であることも知られている[5]。一方、分布間の布間の変動には、顔の経年変化やセンサーの色域変換、ガンマ補正など、非線形性の強い要素が含まれており、実際、実験で示される通り、Fisherの判別分析[6]では扱うことができなない

5.2画像変動の表現:分布内/分布に跨る分散

 上述のような顔画像空間モデルにおいて、画像の変動を表現するために、伝統的なパターン認識[8,6]の基本構成要素であるクラス内分散、クラス間分散のモデルを混合分布型の空間にフィットするように拡張する。即ち、分布内クラス内分散WCWDS(Within-Class-Within-Distribution-Scatter)、超分布クラス内分散WCODS(Within-Class-Over-Distribution-Scatter)、分布内クラス間分散BCWDS(Between-Class-Within-Distribution-Scatter)、超分布クラス間分散Between-Class-Over-Distribution-Scatter)の4つの分散を導入する。

5.3混合分布型分離度基準と不変特徴抽出

 混合分布モデルにおけるクラスの分離度は、同一の分布内、又、異なった分布に跨って異なったクラスを区別する能力と、同一のクラスを同定する能力の2つの要素からなる。分離基準を以下のように定義する:S=tr[C-13C1]-2tr[(C1+C2)-1C4](3)ここで、C1からC4はそれぞれC1:分布Ω1内のBCWDS、C2:分布Ω2内のBCWDS、C3:分布Ω1内のWCWDS、C4:分布Ω1,Ω2のWCODSである。基準Sの第1項≡Swは、分布Ω1内でのフィッシャー基準、第2項は、本論文で新たに導入された分布Ω1,Ω2に跨るクラス平均の分離度基準である(但し'-'の符号あり)。ここで、Sが、分布Ω2内でのSwに相当する項を含まないのは、認識プロセスがΩ1の各サンプルからΩ2のクラス(平均)への対応付けであるためで、これによって一般性が失われることはない。

 個々の分布内での線形分離可能性を仮定し、特徴抽出には基準Sを最大化する分布毎の線形変換A(1),A(2)を用いる:Y(1)=A(1)X(1);Y(2)=A(2)X(2)。X(1),X(2)は、分布Ω1,Ω2からのサンプル、Y(1),Y(2)は抽出された特徴である。Yについて分離度Sを最大化することで、選択性を有する、分布に跨った不変特徴を抽出できる。基準S(A(1),A(2))の直接解を求めることは容易ではないため、Sの各項を独立に最大化し、それらの妥協点をとることで、直接計算法を得る。ある条件の下では、この妥協解は、最適解に一致することが示される。

5.4顔画像認識実験とまとめ

 弱直交化法、混合分布法の評価を、顔画像認識を通して、従来法との比較によって行った。比較アルゴリズムは、Eigenface法[9]、Fisherface法[5]である。

 結果を図3のグラフに示す。横軸は画像セットの組み合わせ、縦軸は一位認識率(被験者は108人)を示す。全ての場合において、混合分布法(DSFE)、続いて、弱直交化法(Worth)の順に優れている。DSFE法は、サブセットPを実験に含むか否かで、性能の変化がほとんど見られなかった。サブセットPを含まない限りFisher法も優れているが、Pを含むと60%以上の性能低下が見られる。今回の実験では、Eigenfaceの性能は一貫して低かった。

6結論

 本論文では、画像の不変特徴の物体認識への応用を扱った。実用的な物体認識システムの構築に向けて、不変特徴の適用可能な画像変動の範囲の拡大と、識別能力や計算論的な効率の向上に焦点をあてた議論を行った。

 最初に、幾何学的な不変特徴であるアフィン不変特徴を導入し、それを用いた平面物体の認識アルゴリズムについて述べた。続いて、幾何学的特徴の抽出過程において失われた、物体表面の反射特性(カラー)の情報を利用し、幾何学的不変特徴との組み合わせによって、適用対象とする物体クラスの拡大をはかった。また、顔画像認識において、照合する画像間の変動を取り除くための、新しいパターン認識法を弱直交化法導出し、さらに、扱える画像変動のクラスをシステマティックに拡大していくための新しい枠組み混合分布型不変特徴法を導いた。剛体認識や顔画像認識の実験を通して、以上の提案された不変特徴の有効性を検証した。

 残された課題には、以下のものが含まれる。

(1)混合分布型の不変特徴抽出法において、2つの要素分布から一般の混合分布モデルヘの拡張が必要である。特に、画像空間の要素分布への分割と、それらの要素分布に跨った不変特徴の抽出法の開発が必要である。

(2)弱直交化法と混合分布型不変特徴抽出法のフレームワークの幾何学的、あるいは、フォトメトリックな物体認識への応用をはかる。

References

[1]KaLLe AStroom,"Affine Invariants of PLanar Sets" In Proc.IAPR SCIA'93,pp.769-776,1993.

[2]D.P.Huttenlocher and S. Ullman,"Recognizing Solid Objects by Alignment with an image,"Int. J.Comp.Vision,5:2,pp.195-212,1990.

[3]W.E.L.Grimson,Object Recognition by Computer,MITPress,1991.

[4]N.BeLhumeur,P.Hespanha,J.Kriegman,"Eigenfaces vs.Fisherfaces:recognition using class specific linear projection,"In Proc.ECCV'96,Vol1,pp.45-58,1996.

[5]N.BeLhumer P.Hespanha.J.Kriegman,"What is the sets of all possible images under variable illuminations,"In Proc.CVPR96,Vol,pp.45-58,1996.

[6]K.Fukunaga,Introduction to Statistical Pattern Recognition,Academic Press 1972.

[7]H.Murase,S.K.Nayar,"Visual learning and recognition of 3-D objects from appearance,"International Journal of Computer Vision,Vol.14,pp.5-24,1995.

[8]E.Oja,"Subspace methods of Pattern Recognition,"Rescarch Studies Press LTD.

[9]M.Turk,A.Pentland,"Eigenfaces for recognition,"Journal of Cognitive Neuroscience,Vol.3,No.1,1991.

Figure1:平面物体の認識結果

最上段の画像は"Baby-Wipe箱"のエッジマップで、黒丸が特徴点(正面サイドのみ)。第2段は、白色化された特徴点マップで、回転変換(約180度)を除いて、分布が一致している。第3段で、クロス(X)は抽出されたクラスター重心。最下段は、復元されたアフィン変換パラメタを用いて、上段左の画像を右画像に変換後、重ねたもの。

Figure2:顔画像のサンプル例

Figure3:認識性能比較実験の結果

異なった撮影条件の下獲得された6つの画像サブセットを様々に組合わせ、2つのセットI(1),I(2)が作られた。図中ABCD-Eの標記は、サブセットA,B,C,DがセットI(1)に用いられ、一方サブセットEが、セットI(2)に用いられたことを示す。A〜Eのサブセットでは、それぞれ各個人3枚な学習に2枚をテストに用いた。学習とテストでサンプルの重複はない。Pは各人一枚の画像のみからなるため、学習とテストは同一の画像である。

審査要旨 要旨を表示する

 本論文は、"Local and Global Invariants for Object Recognition"(物体認識α)ための局所的/大域的不変特徴)と題し、幾何学特徴を利用した物体認識、光学特徴を利用した物体認識、さらには統計的パターン認識において、不変特徴を導入し、それらの適用可能性と有効性についての研究をまとめたものであり、11章から構成されている。

 第1章、"Introduction"では、不変量の物体認識における有用性を指摘し、不変量のクラス分類や研究の歴史を述べている。その後、本研究の目的、本論文の構成を示している。

 第2章は、"Image Transformation and Local and Global Invariants"と題し、画像変換の種類を述べた後、局所/大局的不変量についての説明を行っている。

 第3章は、"An Affine Invariant for Alignment Object Recognition - An Invariant Under Explicit Transformations"と題し、幾何学的不変特徴の1つであるアフィン不変特徴を用いた平面物体の認識について述べている。幾何学的物体認識の中心的プロセスは、物体のモデルである局所幾何学特徴のセットと、物体画像中から抽出された局所特徴セット間の幾何学的変換パラメータの復元である。手法は、基本的に、特徴点対応の仮説と検定による網羅的探索であるため、容易に組み合わせ爆発が生じる。この計算論的な課題をいわゆる白色化と呼ばれる手法により解決することを提案している。

 第4章は、"Experiments:Object Localization and Recognition"と題し、第3章で提案した手法の有効性を示している。すなわち、ノイズや物体の一部隠蔽に対しても安定であり、計算量的にも効率が良いという結果を得ている。

 第5章は、"Photometric Invariant:- An Invariant Under Implicit Transformations"であり、幾何学的不変特徴に光学的不変特徴を組み合わせて、選択性の意味で有効性を向上させる手法について述べている。すなわち、カラーチャネル比から得られる光学不変特徴を、幾何学的特徴と組み合わせ、クラスタ重心を抽出することで、拡張されたマッチング特徴を得ることを提案している。

 第6章は、"Experiments for Photometric Invariants: Stability and Discrimination Power"で、実験により、カラーチャネル比不変特徴の選択性により、非常に安定で効率のよい特徴抽出が出来ることを確認している。

 第7章は、"Weak Orthogonalization:-Invariants under Implicit Transformations-"と題し、パターンの変動の明示的表現が困難な場合この変動を弱直交化することにより解決することを提案している。具体的な応用分野として、顔認識をとりあげ、議論を進めている。同時対角化変換と対角成分の適切な再変換によって、弱直行化された部分空間を得る。この操作を顔特徴分布と摂動特徴分布に適用し、変換後の顔特徴空間の主軸によって得られる空間を抽出する。この空間でのマッチングを行うことで安定な認識アルゴリズムを提案している.

 第8章は、"Experiments for WORTH: An Application to Face Recognition"と題し、第7章で述べられた弱直交化による顔認識手法を実際に顔画像に適用し、従来法よりも高い性能が得られることを示している。

 第9章は、"Distribution - Specific Feature Extraction: - From Local to Global Invariants"と題し、より広範な画像変動に対応できる混合法と呼ばれる不変特徴抽出法を提案している。この手法は、顔画像空間を幾つかの要素分布よりなる混合分布としてモデル化するものである。

 第10章は、"Experiments for DSFE - Application to Face Recognition"と題し、第9章で提案された混合分布法(DSFE)、第7章で提案された弱直交化法(WORTH)と従来法であるFisher法、Eigenface法の比較を行い、すべての場合について、混合分布法が優れていることを示した。

 第11章は、"Conclusions"であり、本論文の成果を要約するとともに今後の課題が示されている。

 以上これを要するに、本論文では、画像の不変特徴の物体認識への応用を扱い、幾何学的な不変量であるアフィン不変特徴を導入し、これと物体のカラー情報から得られる光学的不変特徴を組み合わせて認識できる物体のクラスを拡大し、さらに、照合する物体間の時間的変動をおさえるため、弱直交化法や混合分布法と呼ばれる手法を提案し、実際顔画像を用いてこれらの有効性を示しており、電子情報工学上貢献するところが少なくない。

 よって本論文は、博士(工学)の学位論文として合格と認められる。

UTokyo Repositoryリンク