学位論文要旨



No 122730
著者(漢字) 鈴木,康文
著者(英字)
著者(カナ) スズキ,ヤスフミ
標題(和) 方向性エッジに基づく画像の特徴表現アルゴリズムとそのVLSI顔画像認識システムへの応用
標題(洋) A Directional Edge-Based Feature Representation Algorithm for Facial Image Perception VLSI Systems
報告番号 122730
報告番号 甲22730
学位授与日 2007.03.22
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第267号
研究科 新領域創成科学研究科
専攻 基盤情報学専攻
論文審査委員 主査: 東京大学 教授 柴田,直
 東京大学 教授 浅田,邦博
 東京大学 教授 相田,仁
 東京大学 教授 相澤,清晴
 東京大学 教授 高木,信一
 東京大学 助教授 三田,吉郎
内容要旨 要旨を表示する

 人間の脳内における情報処理機構を解明しようとする研究は、かねてより生物学や神経科学、神経生理学、心理学、言語学などといった様々な方面から数多く行われてきている。工学の分野からのアプローチとしては半導体VLSI上に人間と同じような知的な判断や認識を実行できるシステムを構築することにより、人間の脳内における知的情報処理のメカニズムを知る手掛かりを得ようという研究がある。触覚や聴覚などをはじめとする人の知覚の中でも、視覚情報処理はもっとも重要な働きを持っており、数多くの研究者がVLSI上での実現を試みている。半導体技術は、Mooreの法則と呼ばれる経験則に従い指数関数的に性能が向上しており、また一方CCDやCMOSイメージセンサ技術の発達により、撮像素子としても人間の目の性能を越えるようになった。しかしながら、このように進んだ現在のVLSI技術をもってしても人間のようにロバストな画像認識システムは未だ実現されていない。

 ロバストな画像認識を実現するためには、入力画像からその特徴を抽出し、ベクトルとして表現する特徴表現アルゴリズムが非常に重要となる。動物の脳の視覚野に関する研究から、初期視覚情報処理においては様々な方位をもった方向性エッジが画像認識に重要な役割を果していることが知られている。このような生物学的視覚情報処理機構をVLSI上で模擬することにより、人間のようにロバストな画像認識システム構築を目指し、Projected Principal-Edge Distribution(PPED)法が考案された。このPPED法を用いた画像特徴表現では、水平、+45度、垂直、-45度という4種類の方向性エッジの空間分布に基づき、その空間分布をエッジの方向と同じ方向に射影することによって特徴表現ベクトルを生成している。また、近傍のピクセル間の輝度差のメディアン値をエッジ抽出の閾値として用いることにより、照明条件の変化に対してロバストな特徴表現となっている。すでにPPED特徴表現ベクトルを実時間で高速に生成することが可能なVLSIが開発されており、また、PPED法は手書き文字の認識や医療用X線画像の解析に応用されている。

 人間が生まれてから社会生活を営む上で、他の人間を判別することは必要不可欠であり、その行為はほとんどの場合、その人の顔を認識することで実現されている。人間の脳内において顔の認識が他の認識対象とは異なる処理が行われているかどうかについては、心理学の分野で依然議論が続いており、はっきりとは分かってはいない。しかしながら、人間にとって顔認識は特に重要であり、高い能力を持っていることは確かである。このような事実から、画像特徴表現ベクトルの有用性を示す目的には顔画像認識に応用することが適していると考えて、本研究を行った。また顔画像認識には、実用的なアプリケーションとしても、より使いやすいユーザインターフェースや監視カメラのようなセキュリティシステムといった非常に有用なアプリケーションが多数存在する。一般に顔認識といった場合、主に顔画像検出と顔画像認証という二つの異なるアプリケーションが考えられる。顔画像検出では入力画像から顔の照明条件や大きさ、含まれている顔の数などといった事前知識無しに画像に含まれている顔すべてを見つけ出す必要がある。一方、顔画像認証は与えられた顔画像があらかじめ登録されている顔のうち誰の顔であるかを判別する。これら両者が実現されることによって入力画像から顔を見つけだし、それが誰かを判定するという顔認識システムが実現される。すでに顔検出、顔認証ともに数多くのアルゴリズムが開発されている。これらの多くは統計的手法を用いて顔と顔でない画像、もしくは個人個人の顔を分類しようとするものである。これらの統計的手法は限られた条件下においては非常に高い性能を発揮するものの、適切な学習を行わないと様々な環境に対応できないといった問題がある。また、開発されているアルゴリズムのほとんどが計算機上のソフトウェアとして動かすことを前提としているため、専用VLSIハードウェアを用いて高速かつ低消費電力のシステムを構築するのが難しいという問題もある。

 本論文では、方向性エッジに基づく画像の特徴表現アルゴリズムを発展させ、その有用性を証明するために顔画像認識システムに応用することを目的とする。方向性エッジを用いるという生体の視覚情報処理アルゴリズムをヒントとして、より人間の知覚に近いロバストな画像認識システムが実現を目指した。本論文では、まず顔検出のアルゴリズムについて開発を行った。PPED法を用いただけでは、PPED画像表現ベクトルの生成過程における次元数を下げる操作によって顔と顔でない画像の分離が不十分となり、顔の部分だけを検出することが困難である。そこで、新たな方向性エッジに基づく画像特徴表現アルゴリズムを開発し、複数の画像特徴表現を用いて認識した結果を組み合わせるmultiple-clue法を導入することによって、顔画像と顔でない画像の分離の性能向上を行った。また、検出した顔の中から目、鼻、口といった顔を構成するパーツの存在を確認することによって、それが本当の顔であるかどうか検証する手法を開発した。画像内には様々な大きさや角度の違う顔がある可能性がある。そのような顔を検出するために、顔のテンプレートにあらかじめ大きさや向きの違う顔のサンプルをテンプレートに追加した上で対象の画像の大きさと回転角度を変えながら検出を繰り返すことによって大きさや角度によらず顔が検出できることを示した。結果として、照明や大きさ、角度といった条件によらずロバストに顔画像を検出できるシステムを開発し、その性能を実証した。しかしながら、ノイズが含まれている画像に対しては、極端に検出性能が落ちることが判明した。これは、方向性エッジを抽出する際、画像に含まれるノイズに対しても敏感に反応してしまうためである。そこで、このような問題を解決するために、対象画像に対してまずガウシアンフィルタを用いたぼかしを導入することによってノイズを取り除いた後に検出を行うこととした。その結果、ノイズの含まれる画像であっても正しく顔が検出できることを示した。

 方向性エッジに基づく画像特徴表現を顔画像認証システムにも応用した。この顔画像認証システムは、疑似2次元隠れマルコフモデルを用いた顔画像認証に提案する方向性エッジに基づく特徴表現ベクトルを導入したものである。方向性エッジに基づく画像特徴表現ベクトルを用いることによって、従来の離散コサイン変換に基づく特徴表現を用いた場合に比べて特に照明に対するロバスト性が向上するという結果が得られた。この顔認証システムをVLSIハードウェア上で実現するために、疑似2次元隠れマルコフモデルのVLSIアーキテクチャを考案し、FPGA上への実装を行った。このアーキテクチャでは、観測確率関数としてガウス分布の重ね合わせの代わりにラプラス分布の重ね合わせを用いている。これによって、認識率が僅かに下がるもののVLSI上での実装面積を約半分に削減することができた。結果として、1秒間に200人の顔を認識できる実時間処理認証システムを実現した。

 本論文では、方向性エッジに基づく画像特徴表現アルゴリズムを開発し、顔画像検出および顔画像認証に応用した。その結果、顔検出において複雑な統計的処理を用いることなく高い性能を実現できた。また、顔認証においても既存の統計的手法の性能向上を実現することができた。これらの結果により、方向性エッジに基づく特徴表現の画像認識において有用であることを示した。さらに、これらのアルゴリズムを実現するVLSIハードウェアを開発することにより、実時間でロバストな認識が可能なシステムが実現できることを示した。今後、これらの成果を用いることによって顔認識以外の様々な画像認識の分野に応用が拡がることが期待される。また、VLSIハードウェア上に構築された実時間処理の認識システムを発展させていくことにより、今後は静止画にとどまらず動画の中からの物体認識や、さらに動作の意味理解などといったより高度な視覚情報処理システムの実現につながるものであると考える。

審査要旨 要旨を表示する

 本論文は、A Directional Edge-Based Feature Representation Algorithm for Facial Image Perception VLSI Systems(和訳:方向性エッジに基づく画像の特徴表現アルゴリズムとそのVLSI顔画像認識システムへの応用)と題し、人間のように柔軟な画像認識処理VLSIシステム実現を目指し、画像の方向性エッジを用いた画像の特徴ベクトル表現とこれを用いたロバストな画像認識アルゴリズムを開発するとともに、これを顔画像認識に応用してその有用性を示した研究成果を纏めたもので、全文5章よりなり、英文で書かれている。

 第1章は、序論であり、本研究の背景について議論するとともに、本論文の構成について述べている。

 第2章では、方向性エッジに基づく画像の特徴表現アルゴリズムの詳細について述べている。先ず、64×64ピクセルの認識ウィンドウより抽出した4方向の方向性エッジマップが、対象の画像的特徴を十分に具備しているとの仮定の下に、その縮約表現としての64次元ベクトルが、16,384次元のバイナリベクトル空間から、512次元のバイナリベクトル空間への射影として捉えている。そして、これまで提案されてきたPPED(Projected Principal-Edge Distribution)ベクトル表現を補完する、新たな低次元空間への射影による縮約表現としてAPED(Averaged Principal-Edge Distribution)ベクトルを提案している。これらは、いずれもVLSIシステム実装に適合するベクトル表現として提案・開発されたものであるが、顔画像データベースを用いたクラスタ分析による統計的な解析の結果、これらのベクトル表現が統計的な性質からも有意なベクトル表現となっていることを述べている。

 第3章では、前章で導入したベクトル表現を様々なシーンの中から形状の特徴だけで人間の顔を見つけ出す、いわゆる顔画像検出の問題に適用し、ロバストな画像認識アルゴリズムの基礎を確立する研究について述べている。先ず、PPEDとAPED二種類の表現を用いて、異なる低次元空間への射影により、クラス間のサンプル混合を分離するMultiple Clue法の概念を提唱している。そしてこれを用い、スケールの変化、任意の角度の回転に対しても柔軟に対応できる、False Negative Free顔検出システムを開発した。False Positiveを排除する手法として、顔のパーツをさらに方向性エッジベクトル表現で確かめる検証プロセスを導入し、これによりシステムの性能を向上させた。以上は、正面顔の検出であるが、さらに様々な方向を向いた顔の検出についても適用し、ロバストな検出の行えることを実証している。横顔の検出に関しては、認識に際し着目点を何処に絞るかというFocus of Attentionの概念が重要であることを示している。これらは、エッジベースのベクトル表現を用いた柔軟な画像認識の基礎を確立した重要な研究成果である。

 第4章では、顔から個人を認証するシステムの開発について述べている。個人認証のための顔画像のマッチングには、既存の擬似二次元隠れマルコフモデルを用いているが、部分画像の表現について、従来の離散コサイン変換の係数を用いた表現ではなく、方向性エッジを用いたベクトル表現を導入した。その結果、照明条件の変化に対して大幅にロバスト性が向上するという結果を得ている。さらに実時間の個人顔認証システムを実現するため、擬似二次元隠れマルコフモデルを高速に演算・実行するための専用VLSIプロセッサ・アーキテクチャを開発した。ハードウェア量を削減するため、通常ガウス分布の重ねあわせで表現される観測確率関数をラプラス分布の重ね合わせに置換した。実際にFPGA上にシステムを実装し、一秒間に200人の顔を認識できる実時間個人認証システムを実現した。これは、実用上重要な成果である。

 第5章は結論である。

 以上要するに本論文は、画像より抽出した方向性エッジを用いた画像の特徴ベクトル表現とこれを用いた画像認識アルゴリズムを、顔画像検出システム並びに顔による個人認証システムに応用することによってその有用性を実証し、ロバストな画像認識システム構築の基礎を確立した研究であり、情報学の基盤に寄与するところが少なくない。

 よって本論文は博士(科学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク