学位論文要旨



No 111828
著者(漢字) 黄,英傑
著者(英字)
著者(カナ) コウ,エイケツ
標題(和) 双視野角をもつビジョンシステムと人物動作認識への応用
標題(洋) A Vision System with Dual Viewing Angles and its Applications to Human Action Recognition
報告番号 111828
報告番号 甲11828
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3626号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 石塚,満
 東京大学 教授 高木,幹雄
 東京大学 教授 羽鳥,光俊
 東京大学 教授 原島,博
 東京大学 助教授 金子,正秀
 東京大学 助教授 相澤,清晴
内容要旨

 人間の視覚系は高解像度の中心視と、低解像度の周辺視の両方備えている。低解像度の周辺視は広い視野を持ち、外界の変化にすばやく反応し、主としてボトムアップ的な処理を行う。これに対し、高解像度の中心視は狭い視野で精密に目標を捉え、認識を行う。すなわち、トップダウン的な処理が中心である。この二つの処理機能を協調的に実行することによって、人間の脳は膨大の視覚情報を効率的に処理している。これは、コンピュータで外界を認識するビジョンシステムの設計に大きなヒントを与える。

 本論文では、このような二つの視覚(中心視と周辺視)の機能を備えた双視野注視制御が可能なビジョンシステムを提案、実現している。提案したシステムは、二つの視野角の異なるカメラを持つ。広視野角のカメラは固定されていて、安定的に広い視野画像を提供し、全体システムの参考座標系となる。狭視野角のカメラは回転台に載せられており、水平方向に回転するパン(pan)と垂直方向に回転するチルト(tilt)の自由度を持つ他、ズームと焦点距離も調整できる。広視野で、目標物の野カメラの視野中心に合わせるように回転させ、ズームと焦点距離を調整して必要な解像度を得る。

 高視野での動き追跡について、移動領域を抽出すると同時に速度を予測できる新しい運動エネルギー(Modified Motion energy)を定義する。追跡の速度は、狭視野カメラに認識を行わない場合、約10HZで、実時間の追跡を実現した。なお狭視野カメラで撮った高解像度の画像はであるので、いろんな場合への応用が考えられる。

 従来の音声認識装置を利用するとき、フットスイッチとかフロアマットを利用してユーザの発話の始めと終わりを認識装置に提示する必要がある。すなわち、ユーザは決まった位置へ行く、そしてこのような物理的なスイッチを操作しなければならないのである。これに対して、追跡システムを利用して、ユーザの顔(口)の高解像度の画像から、ユーザの発話の始めと終わりを検出することによって、より自然な音声対話環境を実現した。

 もう一つは、自然な音声対話の流れを作ることである。音声対話システムではシステムの出力音声応答が入力音声に混入して誤り認識を招くため、音声応答中はユーザからの音声入力を受け付けずに、対話の番を守って応答終了後にユーザ発話するような対話の手順(nonoverlapped conversation)が一般的である。人間同士の自然な会話では、相手を遮って発話し会話を行う(interruptible conversation)のがしばしばである。それで、音声対話システムにおいても、このようなユーザ主導で自由に発話し音声応答を遮って入力できる機能が必要であると指摘されている。本論文もこのように円滑的な対話を実現した。

審査要旨

 本論文は"A Vision System with Dual Viewing Angles and its Applications to Human Action Recognition(双視野角を持つビジョンシステムと人物動作認識への応用)"と題し、人間の視覚の周辺視と中心視に相当する、広視野角のカメラと回転動作する狭視野角の二つのカメラを持つコンピュータビジョンシステムを提案、設計、製作し、これを音声対話ヒューマンインタフェースにおける特定位置に定位しないユーザの口の動きの検出に応用した研究成果をまとめたものであり、英文で記されている。

 第1章は序論であり、本研究に関連するアクティブビジョン、視覚探査、ヒューマン・コンピュータ・インタフェース等の技術の状況について述べている。

 第2章"Background and Related Work"では、これまでのコンピュータビジョンの注視動作制御、動き追跡法、人物の動作認識等の関連研究について記している。これまでにもオンライン制御の二つのカメラを用いたアクティブビジョンの方法が研究、開発されてきたが、二つのカメラは同等なもので、その配置法は人間の両眼のような構成とされているものが多かった。本研究では動作する目標物中の特定の部位を注視して認識するためには、人間の周辺視-中心視にならった機構が有効であるとし、広視野角と狭視野角を有する異なる2カメラによる、これまでにない構成のビジョンシステムを提案、開発した背景を述べている。

 第3章"Dual Viewing Angles Vision System"では、広視野角と狭視野角の二つのカメラを持つビジョンシステムを提案し、その設計、回転角の決定法について記している。広視野角カメラは固定であり、安定的に広い視野画像を提供し、全体システムの基準となる座標系となっている。狭視野角カメラは回転台に載せられており、水平方向の回転(pan)、垂直方向の回転(tilt)の自由度を持つ他、ズームと焦点距離のオンライン制御も可能なものである。広視野で目標物の出現に気付き(アテンション)、目標の動きを追跡しながら位置を捉える。その結果に基づいて、狭視野カメラを目標が視野中心に位置するように回転させ、ズームと焦点を調整して目標物中の部位の認識に必要な解像度を得る構成となっている。広視野カメラと狭視野カメラの水平距離、及び狭視野カメラの回転の腕の長さを考慮した立体幾何学的関係から、狭視野回転カメラの回転角を決定し、制御するためのキャリブレーション法と、逆運動学の方法による関係式を明らかにしている。

 第4章"Visual Tracking with Dual Viewing Fields"では、広視野角画像中での移動目標物の検出、追跡法と、狭視野回転カメラの即応的動作と注視動作法について記している。運動物体の検出法は時空間フィルタにより得られる運動エネルギーに基づくものであるが、ここでは移動領域を抽出すると同時にその速度も予測できる新しい運動エネルギーを導入している。この画像処理を汎用グラフィックス・ワークステーションで約10Hzの速度で実現し、カメラから数メートル先を歩行する人物の実時間追跡を可能としている。狭視野カメラの注視方向は、広視野画像からの結果だけでは精度が低いので、それ自身からの画像の処理結果を回転動作にフィードバックして達成している。以上の方法を実装して、移動する人物の、特に口の部分を狭視野カメラが的確に捉えられることを実証している。

 第5章"An Application to Human Action Recognition"では、人間-コンピュータ間の音声対話システムへの応用について記している。連続音声認識装置を使う音声対話システムでは、フットスイッチやフロアマットを利用してユーザの発話の開始を認識装置に提示する必要があり、この場合、ユーザは決まった位置で対話システムを使用することが必要となる。これに対し、ここでは双視野角を持つビジョンシステムを用い、ユーザの顔、特に口部分の画像から発話の開始と終了を検出することを可能にし、より拘束が少なく自然に近い対話環境を実現できることを示している。

 第6章は結論であり、本論文の研究成果をまとめ、今後の研究課題を記している。

 以上を要するに、人間の視覚の周辺視-中心視に対応する機能として、本論文では広視野角と回転可能な狭視野角を持つ二つのカメラを用いるコンピュータビジョンシステムを提案、実現し、移動目標物の特定の部位方向に狭視野回転カメラを注視させるための画像処理による目標物追跡法、狭視野カメラの回転の制御法を明らかにしている。そして、このコンピュータビジョンシステムを用い、特定位置に定位していない人物の口部分の画像を的確に狭視野カメラで捉え、発話の開始と終了を検出することで、より拘束が少なく自然に近い音声対話インタフェース環境を実現できることを実証的に示したものであり、電子情報工学上貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク