学位論文要旨



No 116728
著者(漢字) パスカル アジタ アセラ
著者(英字) Pasqual Ajith Asela
著者(カナ) パスカル アジタ アセラ
標題(和) ロバストな物体追跡のための視覚的特徴の選択と統合に関する研究
標題(洋) Visual Cue Selection, Substitution and Integration for Robust Object Tracking
報告番号 116728
報告番号 甲16728
学位授与日 2002.01.17
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5099号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 相澤,清晴
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
 東京大学 教授 池内,克史
内容要旨 要旨を表示する

 本論文は、「Visual Cue Selection, Substitution and Integration for Robust Object Tracking(ロバストな物体追跡のための視覚的特徴の選択と統合に関する研究)」と題し、英文で書かれており、全体で7章よりなる。動画像中の物体のトラッキングは制御された環境下では安定な特徴量をあらかじめ定めておくことで比較的容易に行える。これに対し、屋外シーンのような自由な環境下でロバストに物体追跡を行うことは依然難しい。本論文では、利用する特徴量を切り替えながら、より汎用にロバストに物体追跡を行うための枠組みを論じている。色、動き、エッジなどの複数の特徴量を切り替えながら追跡を行う手法を提案し、その実証を行っている。

 第1章は、「Introduction(序論)」であり、本論文の目的、概要を述べ、その構成をまとめている。

 第2章は、「Survey of Tracking(トラッキング手法概説)」と題し、これまでに試みられてきたトラッキング手法についてまとめを行っている。どのような画像特徴を用いてどのようにトラッキングを行っているかについて調査を行い、さらに、本論文に深く関係する複数の特徴量を用いる手法の整理を行っている。

 第3章は、「Visual Cue Selection(画像特徴の選択)」と題し、屋外のような自由な環境下で撮像した画像で、任意に選んだ物体をトラッキングするような一般的な問題に対して、適切な特徴量を選ぶことが重要であることを論じており、2種類の選択について論じている。一方は、トラッキングする特徴の初期選択であり、与えられた画像の開始時点において、明るさ、色、テクスチャ、動き、エッジといった複数の特徴の安定の度合いを求め、選択する手法を示している。もう一方は、トラッキング中の選択の動的な変更であり、選択した特徴量が十分でなくなる場合に、他のいずれかの特徴を選択し利用する手法を示している。

 第4章は、「Visual Cue Substitution and Integration for Object Tracking(物体のトラッキングのための画像特徴の切り替えと統合)」と題し、画像特徴の切り替えに基づく新しいトラッキング手法を提案している。画像特徴の切り替えにより、常に1つの支配的な特徴だけを利用してトラッキングを行う。利用している特徴が不確実になる場合には、別の特徴へ自動的に切り替えを行う。具体的なインプリメンテーションでは、色ブロッブ、ヒストグラム、射影ヒストグラム、オプティカルフロー、エッジといった色、テクスチャ、動きなどに対応する特徴量を利用したシステムを実現している。歩道や公園などの屋外での映像を用いて人物をトラッキングする実験を行い、特徴の選別が有効に行われていることを示している。

 第5章は、「Face Tracking System with Multiple Cameras(複数のカメラを用いた顔画像のトラッキングシステム)」と題し、提案するトラッキングの枠組みの下、複数のカメラを用いて人物の顔を追跡するシステムについての検討を行っている。色、動き、エッジといった特徴を用いて顔のトラッキングを行う。複数台のカメラを使った広い視野の中でのトラッキングを行うが、カメラは1台だけがアクティブであり、対象の移動によりカメラの切り替えが行われる。

 第6章は、「Conclusion(結論)」であり、本論文での仕事のまとめを行い、その長所、短所について論じるとともに、今後の展開についても論じている。

 以上を要するに、本論文は制約の少ない環境下で撮像される動画像中の物体のトラッキングをロバストに行う手法を論じ、複数の特徴量の自動的な切り替えによる方式を提案し、その実装実験を通じて屋外画像に対しての検証を行った。また、提案方式の応用についても検討を行った。これらの成果は、画像処理の広範な利用に資することが期待され、今後の電子情報通信工学の進展に寄与するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

審査要旨 要旨を表示する

多くのコンピュータ・ビジョンシステムにおいて、物体トラッキングは重要な役割を担っており、その結果が他の外部システムの入力として扱われることが多い。様々な動的な変化が伴う実世界におけるトラッキングは多くの課題が残されている。制御された環境で、例えば照明条件が一定で、動く物体が一個に限定されている場合の物体トラッキングは比較的簡単である。しかし、文献によれば、一つの視覚特徴を用いた場合、比較的低い複雑さの環境においてもトラッキングの失敗が生じる。この問題を解決するため複数の視覚特徴(多くの場合並列的に)を用いることが提案されており、それらによって計算された物体位置の推定はどの視覚特徴もそれ単独で用いた場合よりも精度良く求められる。しかし、ここで主に問題となるのは適切な統合法を決定することである。文献では統計的手法と投票に基づく方法の二つの基本統合手法が示されている。さらに、視覚特徴統合にファジー理論を用いる手法も報告されている。

本分野の研究は活発に行われる一方で、ターゲットについて事前の知識を持たない一般的な物体のトラッキング・アルゴリズムについての研究はあまり例をみない。殆どの物体トラッキング文献は既知の物体を扱っている。一般的な物体と実環境の下という二つの条件を満たす物体トラッキングでは、どのような視覚特徴を用いるか、どのような枠組みの中でそれらを用いるかが問題となる。本論文では上記の問題を扱い、複数の視覚特徴に基づき、一般的な物体のトラッキングにおける新しい枠組みを提案する。本論文では視覚特徴選択、自動代用そして統合に基づいている。

視覚特徴選択

物体について事前知識がない場合の視覚特徴選択に関する従来の研究は、我々の知る限りでは存在しない。本手法で視覚特徴選択は二つの段階で行われる。まず、最初に一般的な未知の物体に関して、どのような視覚特徴を使うかという問題がある。ここでは、初期フレームが分析され、適切な特徴の順位付けが行われる。例えば、カラー情報のように事前に分かっている情報を利用できる。この段階では、ターゲット物体の統計的な性質に基づくパラメータが各視覚特徴について計算され、(参照画像として与えられる、あるいは一つの動く物体のみの場合は自動的に抽出される)これらのパラメータはトラッキングに利用できるかどうかの判断が行われる。テクスチャー/濃淡情報の場合は、その白黒ヒストグラムの差分の分散が計算される。その分布の間十分の差があれば、テクスチャー/濃淡情報は一つの候補となる。Tomasaiによって提案されているtexuredeness指標を用いてターゲットのトラッキングに利用できる十分なテクスチャを持っているかを調べる。カラー情報に関しては画像のカラー・ブロック(color blob)も利用する。ある範囲の速度を持っている画素と対象シーンに動く物体がいくつあるかということを用いて物体トラッキングにオプティカル・フローの適用も検証する。

現在用いている視覚特徴によるトラッキングが失敗する場合にそれを代用する特徴を多くの中から選択するのは更に困難な問題である。ここで、データ連想手法と各視覚特徴(各々の特徴により独立にターゲット位置を予測する)に伴う共分散行列、それらから計算された重みを用いてどの特徴が最も良いかを決定する。

視覚特徴選択と統合

本論文の提案手法では、主な視覚特徴という概念を提案し、単独の特徴で不確定性が高くなる(トラッキングが失敗する)までトラッキングを行う。視覚特徴の統合はトラッキングが不確定の時間から次の主な視覚特徴を見つけるまでのみ行われる。それから再び一つの視覚特徴でトラッキングがを行う。現在の主な視覚特徴から他の特徴への代用には他の視覚特徴の情報を用いる。この動作は自動であり視覚特徴代用と呼ぶ。本手法の一つ重要な性質はある瞬間においてはひとつの特徴のみでトラッキングが行われるということである。

複数の特徴は一つの特徴のみで困難な複雑な環境におけるトラッキングの不確定性を除去するために用いる。

本手法は、エラーリカバリも含んでおり、提案の枠組みのなかで、複雑の環境において複数の視覚特徴を扱い、物体のロバストなトラッキングを行うシステムが実現できる。各視覚特徴のみを用いる独立のトラッキング装置にそれらをコーディネートするひとつのコントローラの追加により上記が可能となる。

また、提案枠組みはあらゆる視覚特徴が扱えるように拡張できる(ここで扱っていない、物体への距離そして物体の形状なども含む)。本概念の有効性を示すために本論文では、テクスチャー/濃淡情報、色情報、動きとエッジ情報を用いている。もう一つの重要な要素は比較的に複雑な実世界動画像系列を扱い、照明条件の変動、複雑な背景、オクルーションと近い色の物体の存在などのノイズ的な要因の中でその有効性を証明したことである。このような動画像系列を用いることは今後のトラッキング手法のロバストさの検証に不可欠だと考える。

本手法のアプリケーションとして複数カメラを用いた顔トラッキングシステムを構築した。本システムにおいては、一つのコンピュータに複数のカメラを接続し、ある瞬間においては一つのカメラのみが動作している。ターゲットは一つのカメラの視界から離れると顔の動きに対応して次のカメラが動作する仕組みになっている。

複数カメラを用いた実時間顔トラッキングシステム

上記のトラッキング枠組みに基づく顔実時間トラッキングシステムを複数のカメラを用いて実現した。本システムでは、広い領域における顔の動きに対応するためにカメラを機械的に制御する必要がないためシステムの複雑さが削減できる。隣接するカメラの間で視界をある程度オーバーラップさせることで一つのカメラから別のカメラに動作が移る場合、滑らかな顔トラッキングを可能としている。結果としてビデオ・レートの顔トラッキングが実現できた。

システムの第一段階としては、顔の位置のみが計算される。カメラの位置を決定するにあたり、隣接した二つのカメラの間に十分なオーバーラップ領域があるかが基準となる。カメラの台数に関してはカバーするべき領域によって決まり、顔からカメラへの距離はどのアプリケーションによって決定される。ここで、顔の動きはカメラがある方向へのものに限定される。

顔は一つのカメラの視界から別のカメラへ移る領域に存在し、そのカメラの方向へ動くとき、自動的に作動する。そして第二のカメラが第一カメラのトラッキング情報に基づいて大まかな領域の中で顔トラッキングを始める。それによってカメラ並びの位置による影響をなくす。

顔トラッキングアルゴリズム自身がカラー、動きとエッジ情報を視覚特徴として用いている。

UTokyo Repositoryリンク