学位論文要旨



No 123449
著者(漢字) 早川,仁
著者(英字)
著者(カナ) ハヤカワ,ヒトシ
標題(和) 柔軟な動画像認識システムのための動きフィールド特徴ベクトル表現
標題(洋)
報告番号 123449
報告番号 甲23449
学位授与日 2008.03.24
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6765号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 柴田,直
 東京大学 教授 浅田,邦博
 東京大学 教授 藤田,昌宏
 東京大学 教授 高木,信一
 東京大学 教授 相澤,清晴
内容要旨 要旨を表示する

半導体技術の進歩により、マイクロプロセッサには数億ものトランジスタが搭載され、1秒間に何十億回もの演算が行えるにもかかわらず、人間であれば瞬時に行える認識処理を実現することは非常に難しい。これに対し、認識処理において基本となる演算が、マイクロプロセッサの行う数値演算ではなく、入力に似た過去の記憶を想い起こす連想に基づいていると考え、この連想処理を高速に実現するようなハードウェアを作成し、それによって柔軟な認識を目指すシステムが提案されている。このようなシステムで重要になってくるのは、当然のことながら連想処理の高速ハードウェアである。そしてそれと同じくらい重要なものとして、どのような形で情報を表現し、連想処理を行うかがある。本研究では、このような背景のもと、動画像を対象とした連想に基づいた高度で柔軟な認識システムの構築を目指し、動画像の特徴ベクトル表現およびそれを処理する連想プロセッサアーキテクチャについて提案した。

従来の動画像認識では画像から特徴を取り出し、それをHidden Markov Model(HMM)のような動画像に限定されないより一般的な手法で認識を行っていた。このような手法では、ジェスチャーの認識といった比較的単純な用途に対して必要以上に計算コストがかかってしまう。そこで、動きフィールドを基本として、シーケンス全体を1つのベクトルとして表現する手法を提案した。これにより、動画像認識を単純なベクトルのテンプレートマッチングによって実現できる。また、従来の連想プロセッサでは連想処理に特化していたため、ベクトルの加工や連想処理の階層的な実行等の認識システムを作るうえで必要となる処理を行うためには、複数の連想プロセッサおよび汎用プロセッサを用意し、その間でデータを転送する必要があった。そこで本研究では、連想処理に必要な演算器を再利用して算術演算のような、より一般的な処理やプログラム制御を行える仕組みを備えた、連想プロセッサアーキテクチャを提案した。

まず、動画像の認識では、まず、その第1段階として動画像から動きを抽出する部分が必要になってくる。この部分については、動きの内容に依存せずに一般的に使うことができるように、各ピクセルにおいて動きの方向と大きさを保持している動きフィールドを採用した。動きフィールドの代表的な手法には勾配に基づくものとブロックマッチングに基づくものがある。前者は計算コストが少ない代わりに精度に問題があり、後者は精度がよい代わりに計算コストが高い。また、このどちらの手法においても輝度の変化に弱く、また、動きを検出するフレーム間隔を動きの内容に応じて適切に設定する必要があった。これらの問題を解決すべく、本研究では、方向性エッジの変化に着目したブロックマッチングに基づく動きフィールドの作成アルゴリズムを提案した。本手法では、グレイスケール画像ではなく2値化された方向性エッジを使うことで輝度変化に強くし、そのエッジの変化した部分すなわち動いた部分のみを抽出したマップを作成することで動きの誤検出を減らすと同時にフレーム間隔の自動調整を行う。さらに、ブロックマッチングを、射影した1次元のヒストグラムのマッチングとして行うことで計算量を削減する。このようにして求めた動きフィールドの精度を評価するため動きフィールドからベクトル表現に変換し、そのベクトルのシーケンスで簡単なジェスチャーを、時系列データの認識で一般的なHMMを用いて認識させる実験を行った。そして、提案手法によって動きフィールドの作成が、勾配法の代表的な手法であるノーマルオプティカルフローと比べて高い精度で行えることを示した。

続いて、動きフィールドを元にシーケンス全体を単一ベクトルとして表現する方法を提案した。本手法を用いることで、動画認識をHMMのような複雑な認識手段ではなく、単純なテンプレートマッチングで実現することができるようになる。提案手法では、まず、動きフィールドから4方向の成分マップを作成し、それを動きの方向と垂直な軸に対して射影を行うことで、動きの方向が異なる4つの部分ヒストグラムを作成し、それらを連結してProjected Directional Motion Histogram (PDMH)を作成する。すなわち、動きフィールド1枚からPDMHと呼ばれるヒストグラムを1本作成する。そして、元のシーケンスに対応するPDMHのシーケンスに対して、空間軸および時間軸へ射影し8個の部分ベクトルを作成し、それらを連結することでシーケンスの特徴をあらわすベクトルの表現とする。これによりシーケンス全体から1本のベクトル表現が作られることになる。これを動きフィールドシーケンスベクトルと呼ぶ。この特徴ベクトルでは、時間および空間での動きの分布がベクトルの要素番号として反映されており、そのマッチングにおいてベクトルに対してシフト等の処理をすることで、空間的および時間的な位置のずれを補正することができる。また、PDMHシーケンスからベクトルを作成する過程で、射影するときの部分ベクトルの要素に入れる範囲を変更することで空間的、時間的な位置だけでなく大きさに対する補正も同時に行う補正法を提案した。これらの補正法は動きフィールドシーケンスベクトルを作成した後に、ベクトル要素を加工することで実現可能である。したがって、計算コストの高い各フレームでの処理は不要で、マッチングの段階でベクトルに対して処理を行うことで、たとえサンプルの動きの大きさや位置にずれがあったり、時間的な大きさや位置すなわち期間や時刻にずれがあったりしても、それらを補正したマッチングを行うことができる。単純なジェスチャー認識に対して本手法を適用し、単一ベクトル表現でもHMM以上の性能が出せることを示すとともに、時空間の位置および大きさのずれに対する補正法によりさら性能を高めることができることを示した。

ところで、動画像の認識システムにおいては、動きの認識結果、静止画の認識結果など複数の認識結果を統合してより高次での認識及び判断を行う必要がある。このような複数の認識処理を行い、そこからさらに階層的に認識処理を行うような高次の認識を行うことを考えた場合、従来の連想プロセッサはチップ全体で1つの連想処理のみが行えるため、それぞれの連想処理に連想プロセッサが必要となり、さらに、連想以外の処理に対して汎用的なプロセッサまで必要となってしまい、その間のデータ転送等で効率が悪くなってしまう。そこで、連想処理だけでなく汎用処理も実行できるMultiple Instruction-stream Multiple Data-stream(MIMD)エレメントを複数持ったMIMD型の連想プロセッサを提案した。これを用いることで、連想処理の必要の度合いに応じて柔軟に連想処理を行うMIMDエレメントの数を調整でき、CPUのような汎用処理も実行できるので効率のよい柔軟な連想処理が可能となる。MIMDエレメントは、連想処理に必要な演算器を分割し、連想処理には専用のパイプライン構成を用いることで従来の連想専用プロセッサの効率を維持したまま、乗算などの一般的な算術処理も実現できるようにした。また、レジスタに工夫を加えることで、繰り返しなどの構造を持ったプログラムを実行できるようにし、内積など並列されている要素間の演算も可能にした。これらによりベクトルに対する加工を並列処理できるようになり、また、それらの処理の制御を連想プロセッサ内部で実現できるようなった。一方、命令に使用されるメモリを抑制するため、命令をグループに分けて必要に応じて切り替えることで短い命令長を実現した命令セットを考案し、それを実装した。その結果8ビットの命令長で70種類以上の命令を実装できることを確認した。そして、このアーキテクチャの実現可能性を示すとともに、顔画像認識を例に従来の連想プロセッサと汎用プロセッサの組み合わせに対して優位であることを示した。

このように、本研究では、柔軟な動画像認識ハードウェアシステムを目指し、動画像の特徴ベクトル表現アルゴリズム、及び、ベクトルを柔軟に処理する連想プロセッサアーキテクチャについて提案し、それらの有用性を示した。そして、動画像認識システムにおいて、ハードウェアと緊密に連携する柔軟な認識システムがひとつの選択として十分に実現可能であることを示した。

審査要旨 要旨を表示する

本論文は、「柔軟な動画像認識システムのための動きフィールド特徴ベクトル表現」と題し、時系列の動画像データより各時刻における動きの特徴を抽出しこれをベクトル表現するアルゴリズムと、そのベクトル表現を用いて柔軟な動画認識を実行するシステムの構成についての研究を纏めたもので、全文5章よりなる。

第1章は序論であり、本研究の背景について議論するとともに本論文の構成について述べている。

第2章は、「方向性エッジの変化に着目した動きフィールドの生成」と題し、動画像より動きフィールドを生成し、これを特徴ベクトルで表現するアルゴリズムについて述べている。局所的な動きの抽出は、輝度値の時間・空間微分値より求める勾配法が計算量が少なくよく用いられるが、いわゆるアパーチャ問題等で精度に問題がある。これに対し本研究では、画像から抽出した方向性エッジ情報が画像の形状的特徴をよく表現することに着目し、エッジ情報を用いたブロックマッチング法により動きフィールドを生成している。エッジ位置を表すビットフラッグをx軸、y軸に射影したヒストグラムを生成し、異なる時間フレーム間でヒストグラムのマッチングを行うことによって動きを求め、計算量の大幅な削減を達成している。特にエッジフラッグの抽出に際し、動いている部分のみがハイライトされ、かつ画面内の動きが一定値に達した時点で動き場が生成される適応的なアルゴリズムを開発した。こうして得られた動き場を、上下左右それぞれの方向において、その動きの方向に積分することによってベクトル表現を得るPPMD(Projected Principal Motion Distribution)法を新たに提案した。このPPMDベクトルの時系列に対し隠れマルコフモデルを適用し、簡単なジェスチャー認識に応用してその有効性を実証している。これにより動き認識システムの基礎を構築した。

第3章は、「時空間射影による動きフィールドシーケンスのベクトル表現」と題し、動作をPPMDベクトルの時系列データで表現する前章の方法に対し、単一のベクトルで表現するアルゴリズムを提案している。個々の動作について、各時刻の動きフィールドより求めたPPMDベクトルの各要素を時間軸方向に積分したものを新たなベクトル要素として採用し、さらに各時刻における上下左右4方向の動きの要素を各方向毎に加算してそれぞれ4要素に集約するとともに、その時系列もまた新たなベクトル要素として加えた表現方法である。これにより隠れマルコフモデルではなく、単純なベクトルマッチングの手法で動作の認識が可能となった。第2章と同じ問題に適応して、約80%程度だった認識率が90%に達することを示している。さらに、ベクトル要素生成を動作にあわせて適応的に調整する新たなアルゴリズムを提案し、同じ問題に適用した場合認識率が95%以上に達することを示している。これは重要な成果である。

第4章は、「汎用処理/連想処理切り替えアーキテクチャを有するMIMDプロセッサ」と題し、柔軟な情報処理に適合するプロセッサアーキテクチャに関する研究について述べている。人間の認知処理をモデル化した演算処理では、大量のデータの並列マッチング演算と、マッチングの結果をルールベースで検証する論理処理とが混在して実行されることが多い。ここでは、マッチング処理にも論理処理にも切り替えられるMIMD演算ユニットを多数並列配置したプロセッサを構成し、必要に応じてそれぞれのユニットの機能を適応的に切り替えシステム全体の性能を向上させるアーキテクチャを開発した。本構成では、データと命令が同じメモリ内に格納されるため、短命令長の命令セットを開発してメモリの利用効率向上も達成している。

第5章は結論である。

以上要するに本論文は、柔軟な動画像認識の基本となる動きの特徴ベクトル表現に関し、高精度な動きフィールド生成アルゴリズムと、動きフィールドより特徴ベクトルを抽出する新たな二つのベクトル表現方法を提案するとともに、ジェスチャー認識の問題に適用してその有効性を示し、動画像認識システム構成の方法論を提示したもので、電子工学の発展に寄与するところが少なくない。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク