学位論文要旨



No 125107
著者(漢字) 田口,裕一
著者(英字) Taguchi,Yuichi
著者(カナ) タグチ,ユウイチ
標題(和) 自由視点画像合成に基づく光線空間情報の符号化と変換
標題(洋) LIGHT FIELD COMPRESSION AND CONVERSION WITH IMAGE-BASED RENDERING
報告番号 125107
報告番号 甲25107
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第233号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 原島,博
 東京大学 准教授 苗村,健
 東京大学 教授 石塚,満
 東京大学 教授 池内,克史
 東京大学 准教授 田浦,健次朗
 東京大学 講師 山崎,俊彦
内容要旨 要旨を表示する

Recent advances in camera, computer, and display technologies have led researchers to develop 3D TV systems, which provide a more natural and intuitive perception of real scenes than 2D TV systems. Such a system captures multi-view images of a scene by using an array of cameras or lenses, transmits them, and presents a free-viewpoint video on 2D displays or a 3D image on 3D displays by using image-based rendering techniques. A 4D function that represents the light rays included in the multi-view image set is called light field.

This dissertation focuses on handling light field data captured with relatively dense, planar multi-view imaging systems, which are used for reproducing an entire scene rather than only a set of objects, and addresses compression and conversion problems of the light field data. Efficient compression techniques are essential for transmission due to the vast amount of data, typically consisting of tens or hundreds of views. Conversion of light field data is also a core technology of 3D TV systems, because the light field data reproduced by displays is different from the data captured by imaging systems in most cases. Image-based rendering can be considered a basic light field conversion, generating a free-viewpoint image from multi-view images.

In both light field compression and conversion, geometry information of the scene plays an important role, because it provides the correspondence of light rays in the light field; it helps compression methods to improve coding efficiency, while enabling conversion methods to enhance the quality of converted views. The first part of this dissertation therefore addresses dense two-frame stereo matching, a fundamental problem for estimating scene geometry from a set of images. We present an over-segmentation-based stereo method that jointly estimates segmentation and depth to overcome limitations of traditional segmentation-based stereo methods. For mixed pixels on segment boundaries, the method computes foreground opacity (alpha), as well as color and depth for the foreground and background, which gives a more complete understanding of the scene structure than estimating a single depth value.

The next part explores issues of light field compression. In particular, we focus on compression methods that are suitable for image-based rendering. We first present two compression methods that provide a novel scalability, which we call view-dependent scalability. The scalability enables us to render high-quality views around a significant viewpoint even at low bit rates and to improve the quality of views away from the viewpoint with increasing bit rate. One method performs image-based rendering before the encoding process to generate an image at the significant viewpoint, which is located at the head of the encoded bitstream and acts as a reference image for predicting the input multi-view images. The encoded bitstream can be used with three rendering methods depending on the bit rate. The other method uses region of interest (ROI) coding to provide more flexible control of the view-dependent scalability. It is designed for interactive streaming of free-viewpoint videos to compensate smooth movement of the viewpoint. We then explore how we can exploit inter-view correlation in image-based rendering systems while keeping the computational cost low and the system configuration simple. For this purpose, we use a distributed multi-view coding approach, in which the inter-view correlation is exploited only at the decoder, and propose an efficient method that jointly performs decoding and rendering processes in order to directly synthesize novel images without having to reconstruct all the input images.

The last part describes live 3D TV systems using real-time light field conversion. The system presented first in this part performs real-time video-based rendering using an array of 64 cameras and a single PC. The system estimates a view-dependent per-pixel depth map to render a high-quality novel view. The rendering method is fully implemented on the GPU, which allows the system to efficiently perform capturing and rendering processes as a pipeline by using the CPU and GPU independently. We then show a live end-to-end 3D TV system using the 64-camera array and an integral-photography-based 3D display with 60 viewing directions. We present a fast and flexible conversion method from the 64 multi-camera images to the integral photography format. The conversion method first renders 60 novel images corresponding to the viewing directions of the display by using the above rendering method, and then arranges the rendered pixels to produce an integral photography image. All the conversion processes are performed in real time on the GPU of a single PC. The conversion method also allows us to interactively control rendering parameters for reproducing the dynamic 3D scene with desirable viewing conditions.

審査要旨 要旨を表示する

本論文は,「LIGHT FIELD COMPRESSION AND CONVERSION WITH IMAGE-BASED RENDERING(自由視点画像合成に基づく光線空間情報の符号化と変換)」と題し,3次元視覚情報(光線空間情報)の取得・伝送・提示について体系的に議論し,特に,提示手法を考慮した機能的なデータ符号化手法の提案と,カメラアレイと2次元・3次元ディスプレイを実時間データ変換で接続する実践的な3次元視覚情報伝送システムの構築について論じたものであり,全体で9章からなり,英文で書かれている.

第1章は「Introduction(序論)」であり,3次元視覚情報伝送システムの概要と,そのようなシステムにおけるデータの符号化と変換の必要性について論じ,本論文の背景と目的を明らかにしている.

第2章は「Background(研究の背景)」と題し,3次元視覚情報伝送システムの要素技術について,(1)多視点画像群から構成される光線空間情報を用いて自由視点画像を合成するイメージベーストレンダリング,(2)光線空間情報の符号化,(2)光線空間情報の変換という3つの観点から関連研究を概観し,本論文の位置付けを明らかにしている.

第3章は「Stereo Reconstruction with Mixed Pixels Using Adaptive Over-Segmentation(適応的なセグメンテーションを利用したステレオマッチング)」と題し,光線空間情報処理において本質となる3次元空間の幾何構造を推定するため,最も基本となるステレオマッチングの問題に取り組んでいる.提案手法では,左右2眼分の画像から,シーンの正確な奥行き情報に加えて,オブジェクト境界の各ピクセルの透過度を推定することができ,自由視点画像合成に適したデータ表現が可能となる.また,提案手法の奥行き推定精度は,対象領域において著名なベンチマークにより最先端の手法と同等であることが示されている.

第4章は「View-Dependent Light Field Coding Using Image-Based Rendering(自由視点画像合成を用いた光線空間情報の視点依存符号化)」と題し,高品質な画像合成が可能な視点範囲をデータ受信者の計算能力や帯域に応じて柔軟に変更することができる,視点依存スケーラビリティという機能性を持つ符号化手法を提案している.この符号化手法は,自由視点画像合成を符号化の前処理として利用することにより,出力ストリームが従来の2次元映像との互換性を持ち,ビットレートに応じて3通りの画像合成手法により利用できるという特徴がある.

第5章は「ROI-Based Light Field Coding for View-Dependent Scalable Streaming(光線空間内の参照局所性を利用した視点依存階層符号化)」と題し,遅延のあるネットワークを介した自由視点画像合成システムを対象として,第4章で提案した視点依存スケーラビリティをより柔軟に制御するための符号化手法について論じている.ここでは,ROI符号化という画像の一部分を優先的に符号化する手法を,光線空間情報に適用する方法について考察し,そのROIの大きさを変更することにより,高品質な画像合成が可能な視点移動範囲を詳細に制御することができることを示している.

第6章は「Rendering-Oriented Decoding for a Distributed Multi-View Coding System Using a Coset Code(分散型多視点画像符号化システムにおける効率的な画像合成手法)」と題し,実時間自由視点画像合成を前提とした場合,拡張性の高いシステム構成を保ちつつ,いかに符号化効率の良いデータ伝送とそのデータを用いた画像合成が行えるかについて議論している.具体的には,デコーダでのみ画像間の予測を行うDistributed codingという符号化手法に着目し,画像間予測を行わない従来手法よりも高い符号化効率を達成しつつも,従来手法と同程度の計算速度で復号と画像合成を行うことができる手法を提案している.

第7章は「Real-Time All-in-Focus Video-Based Rendering Using a Network Camera Array(ネットワークカメラアレイを用いた実時間全焦点自由視点映像合成)」と題し,64眼のカメラアレイで取得した多視点映像を入力とし,高品質な自由視点映像を2次元ディスプレイ上に実時間で提示する実践的なシステムについて述べている.提案システムでは,グラフィックスプロセッサ(GPU)上で視点位置に応じた奥行き推定と画像合成を行うことにより,CPUとGPUを並列に利用する効率的なデータ処理を実現し,高品質な自由視点映像を30 fpsで合成することが可能である.

第8章は「Live Transmission of Light Field from a Camera Array to an Integral Photography Display(カメラアレイからインテグラルフォトグラフィディスプレイへのインタラクティブな3次元映像提示)」と題し,第7章で述べたカメラアレイと,裸眼立体視可能な多眼式3次元ディスプレイを用いた,裸眼立体ライブ映像システムについて論じている.このシステムでは,異なる入出力デバイスを接続するための実時間光線空間情報変換に加えて,3次元空間のどの部分を鮮明にディスプレイ上に再生するかという,ディスプレイの特性を考慮したインタラクティブなパラメータ操作が可能となっている.このデータ変換手法は,どのようなカメラアレイと多眼式3次元ディスプレイの組み合わせに対しても適用することができ,3次元視覚情報伝送システムの基盤となる技術である.

第9章は「Conclusions(結論)」であり,本論文の主たる成果をまとめるとともに今後の課題と展望について述べている.

以上を要するに,本論文は,3次元視覚情報伝送のための効率的・機能的なデータ符号化手法を提案するとともに,カメラアレイと2次元・3次元ディスプレイを用いた実践的な実時間光線空間情報変換システムの構築を行ったものであって,3次元映像符号化・コンピュータグラフィックス・コンピュータビジョンなど,電子情報学の各分野の今後の進展に寄与するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク http://hdl.handle.net/2261/23036