本論文は"A Vision System with Dual Viewing Angles and its Applications to Human Action Recognition(双視野角を持つビジョンシステムと人物動作認識への応用)"と題し、人間の視覚の周辺視と中心視に相当する、広視野角のカメラと回転動作する狭視野角の二つのカメラを持つコンピュータビジョンシステムを提案、設計、製作し、これを音声対話ヒューマンインタフェースにおける特定位置に定位しないユーザの口の動きの検出に応用した研究成果をまとめたものであり、英文で記されている。 第1章は序論であり、本研究に関連するアクティブビジョン、視覚探査、ヒューマン・コンピュータ・インタフェース等の技術の状況について述べている。 第2章"Background and Related Work"では、これまでのコンピュータビジョンの注視動作制御、動き追跡法、人物の動作認識等の関連研究について記している。これまでにもオンライン制御の二つのカメラを用いたアクティブビジョンの方法が研究、開発されてきたが、二つのカメラは同等なもので、その配置法は人間の両眼のような構成とされているものが多かった。本研究では動作する目標物中の特定の部位を注視して認識するためには、人間の周辺視-中心視にならった機構が有効であるとし、広視野角と狭視野角を有する異なる2カメラによる、これまでにない構成のビジョンシステムを提案、開発した背景を述べている。 第3章"Dual Viewing Angles Vision System"では、広視野角と狭視野角の二つのカメラを持つビジョンシステムを提案し、その設計、回転角の決定法について記している。広視野角カメラは固定であり、安定的に広い視野画像を提供し、全体システムの基準となる座標系となっている。狭視野角カメラは回転台に載せられており、水平方向の回転(pan)、垂直方向の回転(tilt)の自由度を持つ他、ズームと焦点距離のオンライン制御も可能なものである。広視野で目標物の出現に気付き(アテンション)、目標の動きを追跡しながら位置を捉える。その結果に基づいて、狭視野カメラを目標が視野中心に位置するように回転させ、ズームと焦点を調整して目標物中の部位の認識に必要な解像度を得る構成となっている。広視野カメラと狭視野カメラの水平距離、及び狭視野カメラの回転の腕の長さを考慮した立体幾何学的関係から、狭視野回転カメラの回転角を決定し、制御するためのキャリブレーション法と、逆運動学の方法による関係式を明らかにしている。 第4章"Visual Tracking with Dual Viewing Fields"では、広視野角画像中での移動目標物の検出、追跡法と、狭視野回転カメラの即応的動作と注視動作法について記している。運動物体の検出法は時空間フィルタにより得られる運動エネルギーに基づくものであるが、ここでは移動領域を抽出すると同時にその速度も予測できる新しい運動エネルギーを導入している。この画像処理を汎用グラフィックス・ワークステーションで約10Hzの速度で実現し、カメラから数メートル先を歩行する人物の実時間追跡を可能としている。狭視野カメラの注視方向は、広視野画像からの結果だけでは精度が低いので、それ自身からの画像の処理結果を回転動作にフィードバックして達成している。以上の方法を実装して、移動する人物の、特に口の部分を狭視野カメラが的確に捉えられることを実証している。 第5章"An Application to Human Action Recognition"では、人間-コンピュータ間の音声対話システムへの応用について記している。連続音声認識装置を使う音声対話システムでは、フットスイッチやフロアマットを利用してユーザの発話の開始を認識装置に提示する必要があり、この場合、ユーザは決まった位置で対話システムを使用することが必要となる。これに対し、ここでは双視野角を持つビジョンシステムを用い、ユーザの顔、特に口部分の画像から発話の開始と終了を検出することを可能にし、より拘束が少なく自然に近い対話環境を実現できることを示している。 第6章は結論であり、本論文の研究成果をまとめ、今後の研究課題を記している。 以上を要するに、人間の視覚の周辺視-中心視に対応する機能として、本論文では広視野角と回転可能な狭視野角を持つ二つのカメラを用いるコンピュータビジョンシステムを提案、実現し、移動目標物の特定の部位方向に狭視野回転カメラを注視させるための画像処理による目標物追跡法、狭視野カメラの回転の制御法を明らかにしている。そして、このコンピュータビジョンシステムを用い、特定位置に定位していない人物の口部分の画像を的確に狭視野カメラで捉え、発話の開始と終了を検出することで、より拘束が少なく自然に近い音声対話インタフェース環境を実現できることを実証的に示したものであり、電子情報工学上貢献するところが少なくない。 よって本論文は博士(工学)の学位請求論文として合格と認められる。 |