学位論文要旨



No 116103
著者(漢字) 國田,豊
著者(英字)
著者(カナ) クニタ,ユタカ
標題(和) テレイグジスタンスにおける実時間三次元映像の相互提示法の研究
標題(洋)
報告番号 116103
報告番号 甲16103
学位授与日 2001.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4940号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 舘,すすむ
 東京大学 教授 石川,正俊
 東京大学 教授 原島,博
 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 廣瀬,通孝
 東京大学 講師 前田,太郎
内容要旨 要旨を表示する

遠隔地間での面談を実現しようとした場合,従来のテレビ電話のようにただ2次元映像と音声をやりとりするだけでは不十分であり,利用者の位置関係を表現できる3次元空間を相互に実時間で提示できなくてはならない.

本論文では,その工学的な実現手段として円筒型ブースを端末とするシステムを提案する.このブースにおいては,中にいる利用者の全周映像をとらえるとともに,その利用者に全周から立体映像を提示することで,光線の入出力をシミュレートし,遠隔地間でも面談と同様な視空間を相互に提示する.その実装としては,高速度カメラと両眼分の指向性のある光源列を円周軌道上で走査するという手段を用いる.

また,ブース間で3次元映像をそのまま伝送すると,そのデータ量は膨大なものとなる.現在の光ファイバを用いたネットワークにおいても,このようなデータを伝送するだけの帯域は確保できない.そこで,基本的には利用者の左右眼に提示する2眼分の2次元映像をあらかじめ生成し,それを伝送するという設計をとる.ただし,例えば光ファイバにおいて地球の裏側との通信の伝送遅延は往復で200msec程度となる.利用者が頭部運動をしてから映像が更新されるのにこの時間がかかると,いわゆるモーションシックネスと呼ばれる不快感を与えてしまう.そこで,利用者の視点位置近辺の映像を生成するのに必要なデータを送信し,ローカルで視点位置に応じた映像を生成することで,頭部移動に対する遅延を補償する.

以上に述べたシステムの実現可能性を示すために,撮像系と提示系のそれぞれにおいて試作機を製作し,実験を行った.撮像系の試作機として,図1に示すように,複数のカメラを直線状に配置し被写体の任意視点映像を実時間で生成するシステムを製作した.このシステムにおいては,実時間処理のために,被写体の幾何的な形状を明示的に求めない映像生成の手法を用いた.カメラと被写体のおよその距離を想定し,そこに透明な平面があると仮定して,生成する視点位置に応じて各カメラからの映像の一部を投影する.この際,被写体が厳密にはこの距離になくても,ある許容誤差の範囲内で映像を生成することができる.

そこで,このような被写体の存在範囲を「等価被写界深度(Equivalent Depth of Fild, EDOF)」として定式化した.等価被写界深度はカメラの設置間隔の関数となり,カメラの間隔が小さくなるほど大きくなる.例えば図2の左上部は,カメラと画像を生成するバーチャル視点P,そして二つの被写体の位置関係を示している.カメラはZ=0上に並べられ,PはZ=50に位置する.また,二つの被写体はZ=-350と-700[mm]付近にそれぞれ置かれている.投影用の平面をZ=-350に設定したとき,水平方向の等価被写界深度のグラフは図の右上部のようになる.図の左下部の画像は,カメラ間隔ε=4[mm]で生成したものである.この時の等価被写界深度は693[mm]どなり,グラフの通り,後ろの被写体のあるZ=-700まで含む.そして実際に,前の被写体だけでなく,後の被写体の画像も誤差が実質的になく生成されている.一方,ε=30[mm]の時の等価被写界深度は54[mm]で,後ろの被写体には足りない.そして実際,図の右下部に示すように,生成された画像では後ろの被写体(と前の被写体の後ろに張り出した耳)が二重となるような箇所が生じている.このように,等価被写界深度はカメラの設置間隔を決定する上での定量的な設計指針となる.また,実装上の工夫として,多数カメラからの映像信号を,走査線単位で選択して画像生成用のコンピュータに取り込んだ.多数のカメラからの映像をすべて取り込むにはコンピュータの入力帯域が不足し,ある視点位置からの映像生成に必要な画像は,それぞれのカメラでとらえた映像の一部であるためである.

図3は,視点位置をA→B一C→Dと動かし,そこからの映像を実時間で生成した結果である.視点位置A,Bはほぼ同時刻であるが,Bからの画像では衣服の左胸に付いているマークが見えるのに対し,Aからではコップに遮られて見えない.そして,真ん中から見たCでは,マークがちょうど半分ほどカップに遮られ,カップを上げたDの状態ではマークが完全に見えている.この結果から,動く被写体内で正しい遮蔽関係が表現できていることが分かる.

次に提示系の試作機として,TWISTER(Telexistence Wide-angle Immersive STEReoscope)を製作した.特殊なメガネの装着を必要とせず,広視野な立体映像を提示できるのが特徴である.その原理は図に示すように,右眼の光源列は右眼にのみ,左眼の光源列は左眼にのみ入射するように遮光板で分離し,それを走査することで全周にわたりパノラマ的な立体映像を提示する仕組みになっている.

試作一号機TWISTERIにおいては,光源として赤単色のLEDを縦128個並べ,これを左右2つ分とアルミ板の遮光板を1組として,回転半径60cmで走査した.映像は全周に提示可能であるが,その場合,両眼の映像分離が困難になる.よって,今回は水平60°とした.また,映像信号はLEDを制御するマイコンのメモリに蓄え,一緒に回転させている.図4にTWISTER Iにより立体映像を観察している様子を示す.観察者の装着しているヘルメットは安全のためであり,立体視には寄与しない.ここで,観察者が正しく立体視ができているかの実験として,図5のような図形を提示した.上下に2つの正方形を提示し,下の正方形は上に比べて視差が多くついている.よって,このようなパターンを立体視した際には,下の正方形が上の正方形よりも奥に知覚されるはずである.このようなパターンを立体視機能の正常な男女被験者10名に対して提示したところ,すべての被験者が正しくどちらが奥にあるかを言い当てることができた.

もしも回再速度が十分な速さでない場合,バリアの存在が知覚されたり,水平に隣り合う画素が仮現運動をしていると知覚されたり,両眼に入る対応点の時間的なずれにより立体視が成立しない,といった不具合が懸念される.しかし,今回の速度(60rpm)においてはそのような不具合は認められなかった.さらに特記すべきことは,本試作機ではアルミ板による遮光を行なっているため,左右眼に提示している映像には全くと言っていいほどクロストークが生じていない点である.よって,完全に光を不透過に出来ない液晶シャッタや偏光板による立体表示に比べ,非常に明瞭な立体映像であるとの印象を受けた.また,TWISTERIの改良版として,RGBの3原色のLEDを階調表示し映像信号と電源をスリップリングで供給することで,フルカラーの動画像を提示可能とするTWISTER IIの設計と部分的実装を行った.

この二つの試作機は,バリアと光源列の相対的な位置関係が一定である.すると立体視が可能となる領域は制限され,眼間距離6.25cmで試作機を観察した場合,前後に12.6cm,左右に6.25cmとなる.しかし,頭部位置を計測し,バリアを移動させるなどすることで,将来的には広範囲の立体視が可能になると予想できる.さらに,以上で述べた撮像系と提示系を一体化するための理論的な検証を行った.撮像系の試作機ではカメラは直線配置であるが,提案したブースにおいてはカメラは円形に配置される.よって,EDOFの概念を円形配置のカメラにも拡張し,ブースの半径の1/2を半径とする範囲内に被写体が存在するとき,許容誤差の範囲内で映像が生成できるカメラの視点数を求めた.そしてその視点数を走査により実現するためのカメラに求められる性能が技術的に実現可能で,撮像系とも共存可能であることを示した.

図1 撮像系の試作機の概観

図2 等価被写界深度と生成画像

図3 撮像系の試作機による人物像の実時間描画

図4 円形走査による立体映像の提示法

図5 TWISTERIによる裸眼立体視の様子

図6 テストパターン

審査要旨 要旨を表示する

 本論文は「テレイグジスタンスにおける実時間三次元映像の相互提示法の研究」と題し、6章からなる。近年、自分が現存する場所にいながらにして、ロボットの働く遠隔環境にあたかも存在するような臨場感を有して空間を観察し、その空間で行動することを可能とする技術が確立されつつあり、テレイグジスタンスと呼ばれている。一方、遠隔地間でのコミュニケーションのためのテレビ電話などが開発されているが、自分がその場にいるような臨場感や、相手が目の前にいるような存在感を得るにはいたっておらず、実際に面談しているようなコミュニケーションを可能とする新しいシステムが求められている。本論文は相互テレイグジスタンスを用いる面談システムのための三次元映像相互提示装置を提案し、その工学的実現に向け、理論的解析に基づいて設計法を明らかにするとともに、実際のハードウェアを構成してその効果を実証して、今後の実用と応用への道を拓いたものである。

 第1章は「序論」で、遠隔コミュニケーションに於いて面談しているような状態を実現するには、話者が三次元空間を共有している感覚とそれに伴うお互いの位置関係が具現され、さらにはその空間での実時間相互インタラクションが行えなくてはならないことを述べ、これらが従来のテレビ電話などの遠隔コミュニケーションシステムでは満たされていないこと、また、既存の三次元映像の撮像・生成・提示技術要素の単なる組み合わせでは、これを解決できないことを明らかにして、実際に面談しているような遠隔コミュニケーションを可能とするための新しいシステムを、相互テレイグジスタンスにより実現するという本研究の目的と立場と意義を明らかにしている。

 第2章は、「システム設計論」と題し、三次元空間を遠隔地間で視覚的に共有するための工学的方法を提案している。ここで提案したシステムは、利用者を取り囲む閉曲面を介して、必要な光線の入出力を行うという原理に基づくブース状の端末と、それらを繋ぐ伝送路という構成をとっている。複数の利用者はそれぞれのブースを利用しながら、コンピュータの生成した空間(VR空間)を共有し、そのなかでそれぞれの位置関係を保ちつつ面談する状況を作り出すことができる。利用者が入るブースは、内から外に向かう光線の取り込みと、外から内に向かう光線の提示を同時に行う。他の利用者のブースで取り込んだ光線のデータが伝送され、自分のブースで提示されるが、この提示される.光線は、他の利用者のブースで取り込まれた光線をもとに、VR空間中での利用者の位置関係に応じて適切に再構成されたものであり、これにより共有空間中での相互の位置関係を保ちつつそれぞれの三次元映像を実時間に提示できることを示している。ただし、このようなシステムを単純に実現しようとすると、利用者を取り囲む閉曲面のあらゆる位置であらゆる方向の光線を取り込み、かつ、あらゆる位置であらゆる方向に提示できなくてはならないことになり、実装するのが現実的でなくなる。そこで、通常の面談においては上や下からのぞき込むことも、焦点調節が奥行き手がかりとなる至近距離まで密接することも少ないことを鑑みて、光線の取り込みは円周軌道で行い、光線の提示は利用者の両眼のみ行うという工学的に実現可能で、しかも実用上は問題ない方式を提案している。提案の構成法により、伝送する光線データも、基本的には両眼のデータとなり、帯域を節約できる一方で、視点移動をする際の遅延によりVR酔いの状況を生じないよう、視点位置付近のデータを冗長に伝送し、ローカルに両眼分の映像を生成するという補償を行い、視点移動に対して遅延を生じない工夫も凝らしている。

 第3章は「撮像・生成系の試作」と題し、提案したシステムの撮像・生成系を試作的に実装している。試作システムは、複数のカメラを直線状に配置し被写体の任意視点映像を実時間で生成するもので、実時間処理のために、カメラと被写体のおよその距離を想定し、そこに透明な平面があると仮定して、生成する視点位置に応じて各カメラからの映像の一部を投影しているが、その際、被写体が厳密には正しい距離になくても、ある許容誤差の範囲内で映像を生成することができる。そこで、このような被写体の存在範囲を「等価被写界深度(Equivalent Depth ofField:EDOF)」として解析し定式化して、この理論的に導かれたEDOFが、実際の画像生成の結果と合致し、システム設計において有用な指標となることを確認している。また、実装上の特徴として、計算機に映像の生成に必要なデータのみを事前に選択して取り込むことでI/Oボトルネックを解消し、実写画像をテクスチャマッピングすることで汎用的なグラフィクス・アクセラレータにより高速演算を行っている。

 第4章は「提示系の試作」と題し、提案した提示系として試作したTWISTER(Telexistence Wide-angle STEReoscope)について述べている。この試作システムは、特殊なメガネの装着を一切必要とせず、広視野な立体映像を提示できることが特徴である。立体映像の提示法としては、左右2列に並べた光源列と遮光板を一つの提示ユニットとして、複数の提示ユニットを観察者を取り囲む円周上で機械的に走査する方法で、遮光板の存在によりどちらかの光源列は片方の眼からしか観察されないため、両眼に提示する映像が分離できる仕組みとなっている。視点追従を行わない場合には視点の移動範囲が制限されるが、その範囲を理論的に求め、直径2m程度のブースでは、十分に広いことを確認している。また、映像め時間・空間解像度と、走査の回転速度、光源の点灯周波数、提示ユニットの数との間の関係を定式化すると共に、立体視が成立するための人間の視覚特性による制限を明らかにし、両者を満足するための条件を示している。これらの設計指針をもとに、試作システムを試作し、カラー映像が提示可能なこと、毎秒30フレームの動画を提示できること、明瞭な立体視ができることを確認している。

 第5章は「撮像・生成系と提示系の融合に関する考察」と題し、以上で述べた撮像系と提示系を一体化するための理論的な検証を行って、提案法が技術的に実現可能であることを示している。

 第6章は「結論」で、本論文の結論をまとめ、今後を展望している。

 以上これを要するに、本研究では、遠隔地間での面談コミュニケーションを工学的に達成するためのシステムを提案し、その実現可能性を理論と実験によって体系的に論じるとともに、三次元映像の相互提示装置の設計法を明らかにし、実際のハードウェアを構成して提案方式の効果を実証して、今後の実用と応用への道を拓いたものであって、システム情報学及び人工現実感工学に貢献するところが大である。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク