学位論文要旨



No 111129
著者(漢字) ディシルバ,リヤナゲ
著者(英字)
著者(カナ) ディシルバ,リヤナゲ
標題(和) 高度画像通信システムに関する研究
標題(洋) Study and Design of Advanced Visual Communication Systems
報告番号 111129
報告番号 甲11129
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3373号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 羽鳥,光俊
 東京大学 教授 高木,幹雄
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
 東京大学 助教授 相澤,清晴
内容要旨

 本論文では下記の項目について検討しました。

 ・複数人同士の視線一致可能なMPEC(Multiple Person Eye Contact)テレビ会議システム

 ・人間の顔の特徴検出と追跡、顔の向き推定手法(Edge CountingとDeformable Template Matching)

 ・テレビ公議の出席者によりよい対話感覚を与えることを可能とする手法SVW(Steerable Viewing Window)

 ・テレビ会議の出席者の視線情報利用してdata量を削減できる手法LOGCC(Line Of Gaze Centered Coding)

MPECテレビ会議システムについて

 臨場感を伴う高度な画像通信会議システムの実現には、会議出席者間の視線一致が不可欠であると考えられる。このため、近年、液晶ディスプレイやプロジェクタ等の利用による、さまざまな視線一致の実現手法が提案されている。しかし、各局に複数の会議出席者が存在する場合に、同時に各出席者間の視線の一致を実現するシステムについては検討されていない。本論文では、同時に各出席者間の視線一致を可能とするMPEC(Multiple Person Eye Contact)テレビ会議システム(図1)を提案する。視線一致の実現のためには、ディスプレイに映された相手の顔の後ろにカメラを配置し、ディスプレイ上の相手の位置から見える画像を取得し、相手に伝送する必要があるが、本方式ではハーフミラーの利用により、各局に複数の会議出席者が存在する場合のシステムを実現している。

 以下に本方式の原理を述べる。以後の説明では、l局とm局の2地点間での会議を想定し、l局にはA、B、m局にはP、Qの出席者がいるものとする。この場合のシステムの概要を図1(a)に、各局における出席者と、ハーフミラー、カメラ間の位置関係を同図(b)に示す。図中の各記号の説明は以下の通りである。

 FA:出席者Aの顔(頭)

 IAP:出席者Pの前のディスプレイに表示されるAの顔画像

 CAy:y局において、他局の出席者Aに提供する映像を撮影するカメラ

 DAy:y局のカメラCAyによって得られた画像を表示するディスプレイ

 視線一致実現のポイントは、このカメラ配置にある。図1(b)に示した通り、l局においては、AからPの顔画像(DAmに映るIPA)が見える方向と、BからPの顔面像(DBmに映るIPB)が見える方向の交点にカメラCPlを配置する。同様に、AとBのそれぞれからQの顔画像が見える方向の交点にカメラCQlを配置する。また、m局でも同様にカメラを配置する。l局において、カメラCPlで撮影されたAとBの顔画像は、Pの眼前のディスプレイDPlに表示されるが、このカメラ配置では、A、Bから見たPとカメラCPlの方向が一致する。よって、A,BがPを見た場合、PにはA、Bが自分の方向を見ている画像が提供され、AP間、BP間での視線の一致が実現する。このことは、l、m局のどの出席者間においても成り立ち、全体として、視線の一致が実現できる。

図1:(a)The perspective view of the proposed system for 2+2 person arrangement (b) Optical paths of the proposed 2+2 person system (MPEC)
人間の顔の特徴検出と追跡、顔の向き推定手法

 現存の仮想現実等のシステムでは、頭部に特別な装置を着用し、システムの制御に必要な情報を取得しているが、将来のヒューマン・コミュニケーションの応用では、特別な装置の着用なしに、顔の特徴点を検出、追跡することが必要となる。このことを考慮し、本論文では、画像処理のみより顔の特徴点を検出、追跡する手法を提案する(図2)。本手法では、最初のフレームで、伸縮可能なテンプレートを用いて、その中に含まれるエッジ点の計数、評画し、目、口、鼻などの特徴を検出する。以後のフレームでは、エッジ点の計数とdeformable templateによるマッチングを交互に行い特徴点を追跡する。そして得られた情報に基づき顔の向きを推定する。

図2:Algorithm Overview of the Face Feature Detection and Feature Tracking

 本手法の特長の1つは、テンプレートマッチングに基づく従来法では対処困難な、表情の急変等に起因するフレーム間相関の低下に対処可能な点である。複数の顔画像シーケンスに対する実験より、本手法の有効性を確認した。

SVW-Steerable Viewing Window

 本論文で提案するSVW(Steerable Viewing Window)は、出席者の意図に応じて視野をコントロールする画像通信システムである。本手法では、local局の出席者によりよい対話感覚を与えることを目的とし、検出された顔の向き情報に基づきremote局のカメラを制御する(図3)。この手法により、cameraの解像度に依存しない広視野画像をlocal局の出席者に提供できる。

図3:SVW System Overview
LOGCC-Line Of Gaze Centered Coding

 取得した画像情報の伝送においては、その膨大な情報量が最大の問題となる。本論文では、検出された顔の向き情報を利用し、伝送する情報量をコントロールする手法(LOGCC-Line Of Gaze Centered Coding)を提案している。本手法は、出席者の視線の中心に近いほど高解像度で圧縮する。一方、視線の中心から離れた部分は低解像度で高圧縮するため、情報量が削減できる。本手法の有効性を検証する実験を行った結果、さほど違和感を生じることなく、情報量を低減できることが確認された。

審査要旨

 本論文は、"Study and Design of Advanced Visual Communication Systems"(高度画像通信システムに関する研究)と題し、視線の一致を実現するテレビ会議システムの開発と、顔の向きの推定とそのテレビ会議システムへの応用に関する研究であり、10章より構成され、英文で記述されている。

 第1章は「序論」であり、研究の背景、歴史とその意義について述べている。

 第2章は「画像通信技術」と題し、テレビ会議、テレビ電話あるいはネットワークを介する協調作業システムなどの現存の画像通信技術について述べるとともに、その問題点を明らかにしている。

 第3章は「視線の一致を伴うテレビ会議システム」と題し、画像通信における視線の一致の重要性を論じている。話者の注視している点とその話者をとらえるカメラの位置のずれがもたらす違和感に関する実験を行い、水平あるいは垂直方向のずれ、すなわち視線の不一致が大きな違和感を生じさせ得るのに対し、奥行き方向のずれはそれほど違和感を生じさせないとの結論を導いている。さらに、視線の不一致を感じないための視差角の許容範囲はおおむね水平方向に5°以内であり、また上方向より下方向に広いということを示している。

 第4章は「複数の出席者間の視線一致の可能なテレビ会議システム-MPEC-概要と設計」と題し、複数の会議出席者が存在する場合に、各出席者間の視線一致を同時に実現するMPEC(Multiple Person Eye Contact)テレビ会議システムを提案している。提案システムにおいてはハーフミラーを利用し、その上に映された相手の顔の後ろにカメラを配置、取得した画像を相手に提供する。カメラの物理的な配置を工夫することで、従来のシステムより少ないカメラ数で、なおかつ複数の出席者間の視線一致の可能なシステムを実現している。

 第5章は「複数の出席者間の視線一致の可能なテレビ会議システム-MPEC-試作と結果」と題し、会議出席者が2対1の場合を想定したプロトタイプシステムの試作とその結果について述べている。試作したシステムによる実験を行い、提案システムでは、画像通信上重要な相手の視線に関する感覚を提供できること、出席者が複数であっても違和感のない画像を提供できることを検証している。

 第6章は「顔の特徴検出とその追跡」と題し、画像処理のみより顔の特徴点を検出、追跡する手法を提案している。提案方式では、エッジ情報に基づいて特徴点を検出、追跡するが、表情の変化等によりフレーム間相関が低下した場合でも、従来の手法に比べ、よりよく追跡できることを示している。

 第7章は「顔の向きの推定」と題し、顔の特徴点のモデルを用いて1枚のフレームより各特徴点の位置を求め、顔の向きを推定する手法を提案している。そして、顔画像のデータベースに対する実験により、高い正答率で顔の向きが推定できることを示している。

 第8章は「視線の方向を考慮した圧縮方式-Line Of Gaze Centered Coding(LOGCC)」と題し、推定された顔の向きに関する情報を利用し、伝送する情報量を制御する手法(LOGCC-Line Of Gaze Centered Coding)を提案している。そして、実験により大きな違和感を生じることなく効率的に情報量を低減できることを示している。

 第9章は「テレビ会議におけるSteerable Viewing Window(SVW)」と題し、推定された顔の向きの情報により他局のカメラを制御し、対話感覚を向上させる手法を提案している。そして、カメラの解像度に依存しない広視野画像を提供できることを示している。

 第10章は「結論」であり、本論文の成果を要約している。

 以上これを要するに、本論文は視線に重きをおいた、より臨場感のある画像通信システムに関する研究であり、複数の話者間の視線の一致の実現可能なテレビ会議システムを設計、試作、検証し、画像通信における視線の一致の重要性を明らかにするとともに、画像処理手法に基づく顔の向きの推定と、その情報を利用した高度通信システムの要素技術に関する検討を行ったものであり、電気通信工学上貢献するところが少なくない。

 よって著者は東京大学大学院工学系研究科電気工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク