学位論文要旨



No 128472
著者(漢字) 羅,衛蘭
著者(英字)
著者(カナ) ラ,エイラン
標題(和) 多視点ビデオからの人物の動きと形状の協調的推定
標題(洋) Cooperative estimation of human motion and surface using multiview videos
報告番号 128472
報告番号 甲28472
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第383号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 佐藤,洋一
 東京大学 教授 相澤,清晴
 東京大学 教授 石塚,満
 東京大学 教授 池内,克史
 東京大学 教授 浅見,徹
 東京大学 准教授 苗村,健
内容要旨 要旨を表示する

This thesis proposes a human motion tracking method that not only captures the motion of the skeleton model but also deforms the surface model using images acquired by multiple synchronized cameras. In the motion tracking process, we extracts articulated postures with 42 degrees of freedom through a sequence of visual hulls. We seek a globally optimal solution for the likelihood using local memorization of the fitness of each body segment. Our method avoids problems of local minima efficiently by using a mean combination and an articulated combination of particles selected according to the weights of the different body segments. We deform the template surface model by using the motion tracking data with linear blend skinning. The details of the surface are recovered by fitting the deformed surface to 2D silhouettes. The extracted posture and estimated surface are refined by registering the corresponding body segments. In our experiments, the mean error between the samples of the deformed reference model and the target is about 2 cm and the mean matching difference between the images projected by the estimated surfaces and the original images is about 6%.

Segmentation for the human body is important while motion estimation for each body joint. We first segment the template mesh surface utilizing the geodesic distance and the underlying skeleton and then label the corresponding volumetric model. The skinning weights for the vertices can be calculated while the connection between the vertex and the bone is known. The visual hull can be labeled by searching for the nearest vertex in the corresponding mesh surface. The segmented volumetric model is then utilized in the motion tracking process for the next frame.

A sampling method is proposed for selecting maximally dispersed voxels to ensure that there are sufficient voxels for each body segment. We obtain the bounding box of a volumetric model and scale it to be a cube, divide it to obtain about 2% of the voxels.

We propose a simple approach to eliminating undesired human motions via self-intersection. We provide a weighting function to guide the motion process to remove bad particles that contain body segments in collision with each other.

Although global optimization approaches can avoid local-misaligned problem, it is usually time-consuming and still hard to obtain the optimal solution for tracking especially in high dimensional search space. The modified particle filter method we proposed quickens the convergence by memorizing the mean squared distance between the samples in the reference and in the current frame for each body segment, and combine them to provide more "appropriate" particles for the annealing process.

A sampling method for voxel selection is provided to reduce the computational cost, while ensuring that the selected voxels are spread across all the human segments. In addition, a self-collision detection method is utilized to search for real particles in the tracking process.

Non-rigid deformation for recovering surface detail can be realized by linear blending skinning (LBS) method while obtaining the corresponding vertices by silhouette constraints. In addition, we take samples of the segmented volumetric model to match the target, using iterative closest point (ICP) registration to smooth the errors caused by the mesh deformation. The extracted transformation for each body limb provides a good initial estimation for the ICP algorithm. The template surface is deformed to generate the reference surface for the next frame using LBS.

審査要旨 要旨を表示する

本論文は,「Cooperative Estimation of Human Motion and Surface using Multiview Videos(多視点ビデオからの人物の動きと形状の協調的推定)」と題し,英文で書かれており,5章よりなる.映像から人の全身像の動きやその形状の変化を捉えることは,その映像コンテンツ解析の大きな課題であり,新たな映像製作手法などへの広がりが期待できる.本論文では,多視点で取得した人物の映像から,特別なマーカーを用いることなく,その人物のスケルトンの動き及び人物の表面形状の動きを追跡するフレームワークを示し,その技術的な課題について論じたものである.

第1章は,「Introduction(序論)」であり,研究の背景と論文の構成について述べている.また,人物全身像の動き,形状の推定に関する現状をまとめるとともに,本論文での技術的な貢献に関してまとめている.

第2章は,「Model Decomposition(モデル分割)」と題し,多視点映像から生成する人物メッシュモデルからのスケルトン生成とそのセグメンテーションについて論じている.多視点画像を用いた視体積交差法により生成したメッシュモデルに対して,階層的なスケルトンの抽出を行っている.人物像の上半身,下半身それぞれに対して,測地線距離と体の各部のおおよその比をもとに手足頭の端点から開始してスケルトンを生成する.そののち,スケルトンの関節を基準にメッシュモデルの15の部位へのセグメンテーションとそのラベル付けを行っている.さらに,メッシュセグメンテーションをもとにvolumetric modelとして表現されたvisual hullのセグメンテーションを行っている.

第3章は,「Human Motion Tracking based on Model Segmentation (モデルセグメンテーションに基づいた人物の動きの追跡)」と題して,特別なマーカーなしに人物のスケルトンの動きを追跡する手法2つについて論じている.多視点映像系列に対して,前章で構築した42自由度を有するスケルトンの動きを追跡する手法であり,その一方は,多視点から得られるメッシュモデル系列に対しての処理であり,もう一方は同じく多視点から得られるvisual hull系列に対する処理である.前者の手法は,対応点問題で誤りを含みやすいことを論じて,後者の手法について詳細に論じている.具体的には,サンプリングにより,visual hullのごく一部(2%程)を利用することにより,計算量を抑えながら,自己交差部位の判定を行い,サンプル点の体の部位への帰属を決定し,annealed particle filterを用いてスケルトンの追跡を行う手法を提案している.体の各部位ごとに重みをつけてannealed particle filterを用いることで,良好な推定の組み合わせを促進することを可能にしている.最終的に部位によらず2cm程度の誤差での動き推定ができ,十分に良好な性能であることを確認している.

第4章は,「Cooperative estimation of human motion and surface (人物の動きと形状の協調的な推定)」と題し,スケルトンの動き追跡をもとに,メッシュモデルの変形による形状の追跡も相補的に行う手法について論じている.スケルトンの動きをもとに,部位ごとにテンプレートとする初期メッシュモデルにより形状の予測を行い,さらに多視点像でのシルエットの制約をもとに形状の修正を行うことで,形状の推定精度を高めている.さらにその修正形状をもとにスケルトンの姿勢の修正を行う手法を提案している.複数の系列に対しての評価では,表面形状のシルエットでの誤差は,5%程度低減できることを確認している.

第5章は,「Conclusions(結論)」であり,本論文での成果をまとめるとともに,今後の課題について言及している.

以上これを要するに,本論文では,多視点で取得した人物の映像から,特別なマーカーを用いることなく,その人物のスケルトンの動きを追跡し,さらにはその人物の表面形状の動きを追跡する課題について論じたものであり,その電子情報学上貢献するところが少なくない.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク