学位論文要旨



No 213063
著者(漢字) 遠藤,利生
著者(英字)
著者(カナ) エンドウ,トシオ
標題(和) オプティカルフローに基づく3次元情報算出
標題(洋)
報告番号 213063
報告番号 乙13063
学位授与日 1996.11.14
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13063号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 杉原,厚吉
 東京大学 教授 廣津,千尋
 東京大学 教授 岡部,靖憲
 東京大学 助教授 宮川,雅巳
 東京大学 助教授 出口,光一郎
内容要旨

 近年の産業の高度化に伴い,監視システムや産業ロボットの高機能化が望まれており,そのために画像からそこに何が映っているのかを理解する技術の重要性が高まっている.また,マルチメディアのために画像を自由に編集・加工したいという要望も強く,そのための基礎としても画像からの3次元物体形状とその運動の理解は重要な工学的課題である.我々人間は無意識的に視覚による外界認識を行っているため,ともすると画像理解が容易な処理であると考えがちであるが,3次元物体が2次元の網膜に投影される際に多くの情報が欠落するため視覚による外界認識は非常に高度な処理となり,その工学的な実現である画像理解は容易ではない.現在,ある程度対象を限定して様々な方面から研究が進められている.

 本研究では,人間が遠距離の物体を認識する際に主な手掛かりにすると考えられている運動視差を取り上げ,それを利用した工学的な3次元認識手法について検討する.具体的には,3次元空間内を1つの剛体が運動する状況を考え,それを単眼のカメラで撮影して得られる動画像から,元の剛体の3次元情報(運動と形状)を算出する新しい手法を提案する.主に工学的な有用性の観点から検討を行うが,人間の視覚系の工学的な再現も視野に入れた議論を行う.

 与えられた動画像から物体の3次元情報を求める代表的な方法として,動画像の時間的に隣接した画像間で特徴点の対応を求める方法と,オプティカルフローに基づく方法の2つがある.特徴点とは物体上の一定箇所を画像上に投影した点であり,オプティカルフローとは物体の投影像の2次元的な動きである.特徴点の対応付けは容易ではないことが多いので,オプティカルフローに基づく3次元情報算出について考察する.すなわち,動画像からの3次元情報算出を,動画像からのオプティカルフロー算出と,オプティカルフローからの3次元情報算出の2段階の処理に分解し,それらをひとまず別個に取り扱う方針を採用する.

 動画像からオプティカルフローを算出する代表的な方法として,画像の明るさの時間微分と空間微分の比からフローを定める勾配法がある.勾配法は条件式が1つに対して未知数が2つ存在するため,それだけでは解を定めることができないので,フローが滑らかである等の制約条件を追加する必要がある.従来は,フローは空間的に滑らかであるという制約条件が用いられていた.本研究ではこの制約を拡張し,フローは時間的にも滑らかであるという従来用いられていなかった制約条件を追加することで,より高精度なフローを算出できる新しい方式を提案する.この方式は,動画像からのフロー算出を時間を含むある種の偏微分方程式に帰着させるものであり,時系列データとして与えられる動画像を自然な形で扱うことが可能になる.また,これらの制約を利用してフローを算出するためには,あらかじめ動画像に対して時間的にも空間的にも滑らかにする前処理を施しておく必要があるので,そのような前処理も合わせて提案する.

 開発したオプティカルフロー算出方式の構成を図1に示す.まず,動画像を時間的にも空間的にも滑らかにする前処理として時空間フィルタ(Spatio-Temporal Filter)を施し,次にフローは時間的にも空間的にも滑らかであるという制約条件から導かれたベクトル型拡散方程式(Vector-Diffusion Equation)でフローを算出する流れである.

図1オプティカルフロー算出方式の構成

 提案した手法の有効性を検証するために,計算機で作成した動画像を用いて画像に加わる雑音の程度と算出されたオプティカルフローの精度の関係を求めた.入力の動画像は,3次元空間内において回転している円筒を平面上に投影した映像に,画素毎に一定の一様分布に従う雑音を加えて作成した.一様分布の標準偏差を変化させて,算出されたフローの投影された真の運動との差の関係を調べた.投影された運動との差の尺度としては,相関係数を用いた.結果を図2に示す.図において,グラフの横軸が画像の最大濃度を1に正規化した場合の画像に加えた雑音の標準偏差,縦軸が算出されたフローと投影された運動の相関係数を表している.TSPが提案方式,SPが提案した前処理を施した後,空間的な滑らかさだけを考慮する従来方式を用いた場合,GLがガウシャン・ラプラシアンで画像を滑らかにした後,従来方式を用いた場合である.明らかに,提案方式で算出されたフローが最も高精度であることが分かる.

図2算出されたオプティカルフローと真の動きとの差

 次に,オプティカルフローからの3次元情報算出について考察する.対象物体が1つの剛体で,その運動が投影面に中心投影され十分多くの点においてオプティカルフローとして観測されると仮定する.この仮定の下で,フローからの3次元情報算出は,投影関係から導かれる簡単な方程式(復元方程式)を解くことに帰着される.正確なフローが与えられた場合に復元方程式を解いて3次元情報を求めることは容易であり,線形演算で解を求めることができる.しかし,初期に提案された手法は,フローに加わる僅かな雑音に対して非常に敏感で,すぐに真の3次元情報から外れた値を出力するという問題があった.算出されるフローは通常大きな雑音を含むので,雑音が加わったフローからいかにして精度の良い3次元情報を求めるかが課題となった.そのためには,フローに加わる雑音の性質を定める必要がある.しかし,フローに加わる雑音の要因は非常に複雑であるため,その性質を定量的に定めることは容易ではない.そこで,ある種の単純化を行い,フローを観測する点毎に独立に平均0分散一定の正規分布に従って雑音が加わるという統計モデルを採用する.このモデルは,実際に算出されるフローには必ずしも厳密な意味では当てはまらないが,フローに加わる系統的な誤差を除いて何度も3次元情報を算出する状況を考えれば,近似的には当てはまると考えられる.

 フローに関するこの統計モデルの下では,算出される3次元情報(推定量)の偏りや分散を計算することができる.偏りがなく分散が小さい推定量ほど優れた推定量であると考えられる.本研究は,この評価基準の下で既存手法の比較を行い体系化を目指すとともに,より優れた新しい手法を提案する.具体的には,多くの統計的推定問題で漸近的には最適になる最尤推定量が,フローからの3次元情報算出問題では最適にならないことを示し,最尤推定量よりも分散の小さくなる不偏推定量を提案する.

 計算機で作成したフローを用いて,フローに加わる雑音の標準偏差と様々な手法で算出された並進速度の標準偏差の関係を求めた.結果を図3に示す.図において,グラフの横軸がフローに加わる雑音の標準偏差,縦軸が算出された並進速度の標準偏差を表している.標準偏差が大きい順に説明する.ulinが行列の固有値計算で解を求められる線形法,umleが観測されたフローの平均2乗誤差を最小にする最尤推定量,uquotが最尤推定量よりも演算量が少なくて済む分数型評価関数に基づく推定量,upolwが最尤推定量の評価関数に一般化された重みを加えた評価関数を最小にする推定量,umodが最尤推定量の推定関数(評価関数の1階微分)に修正項を加えた推定関数を0とする推定量,ucrlbが任意の不偏推定量の分散に対するクラメル・ラオの下界を表す.これらの推定量はみな漸近的には不偏である.明らかに,ここで提案する方式uquot,upolw,umodは,最尤推定量umleよりも小さい分散を持つことが分かる.特に,upolwとumodは,クラメル・ラオの下界ucrlbにごく近い分散を持つ準最適な3次元情報算出方式になっている.

図3 様々な推定量による並進速度の標準偏差

 以上のように,本論文は,動画像から対象の3次元情報を高精度で算出できる新しい方式を提案し,その性能を理論的に解析するとともに,計算機実験によってもその有効性を確認したものである.

審査要旨

 網膜に投影された画像から外界の状態を認識する視覚機能を機械で実現する技術は,工業用ロボット,監視システム,自動立体計測など多くの工学的応用をもつ重要な課題で,近年のマルチメディア通信基盤の充実に伴って,その重要性はますます大きくなってきている.我々人間はほとんど無意識に視覚から外界を認識しているため,このための情報処理はやさしい技術であると考えがちである.しかし,3次元の世界が2次元の網膜に投影されるとき複雑な物理的・幾何的変換をうけるため,画像から立体を復元する作業は高度な処理を要する難しい課題であり,視覚代行システムの研究は未だ実用からはほど遠い状態にある.

 本論文は,このような背景のもとで,物体の運動が画像にもたらす変化を利用して,画像から立体の形と動きを抽出する課題に取り組んだもので,「オプティカルフローに基づく3次元情報算出」と題し4章よりなる.

 第1章は「序論」で,本論文の背景となる視覚系の研究の現状を概観したあとに,本研究の立場と方法を明確にしている.特に本研究では,3次元空間内を一つの剛体が運動する状況を考え,それを単一のカメラで撮影して得られる画像中の流れの場からもとの剛体の3次元形状と運動を算出する手法を研究すること,およびそのために,動画像から画像中の流れ場を算出する作業と,流れ場から立体を算出する作業のそれぞれを互いに関連づけながら詳しく考察していくことを明らかにしている.

 第2章は「動画像からのオプティカルフロー算出」と題し,画像の時間的変化から画像平面上の流れの場---これをオプティカルフローという---を算出する方法を論じている.このための代表的方法は,画像の明るさの時間微分と空間微分の比に着目する勾配法である.この方法では,画像の各点において未知数が二つあるのに条件式は一つしかないため,フローの変化が小さい等の制約条件を追加して妥当な解を探索する.従来は,フローは空間的に変化が小さいという制約条件が用いられていたのに対し,本論文では,フローは空間的だけでなく時間的にも変化が小さいという制約条件に拡張する方法を提案している.その結果,フローの算出を,時間を含む拡散型の偏微分方程式を解くことに帰着させ,それを解くために必要な前処理法も構成している.

 この手法の有効性を検証するため,計算機で作成された動画像を用いて,画像に人工的に加えた雑音の程度と算出されたオプティカルフローの精度の関係を調べた.その結果,空間的滑かさのみを拘束とする従来の方法と比べて,新しい方法がすぐれていることを確認している.

 第3章「オプティカルフローからの3次元情報算出」では,雑音を含むオプティカルフローからいかにして精度のよい3次元情報を算出するかという問題設定のもとで,統計的手法を導入し,推定量の分散の大きさを評価基準として用いることによって,既存の手法を評価するとともに新しい手法を提案している.具体的には,観測されるオプティカルフローは,真の値に観測点ごと成分ごとに独立な平均0の正規分布に従う雑音が加わったものであるという統計モデルを導入し,その下で,偏りがない推定量の中で分散ができるだけ小さなものを探している.その結果,この場面では最尤推定量は必ずしも最良のものではなく,それよりさらに分散の小さい不偏推定量が存在することを発見している.これは従来からの常識をくつがえす新しい知見であり,統計手法の安易な流用は危険であることをこの分野に警告するものでもある.

 この新しい発見に基づいて,最尤推定量よりいっそうよい推定量として,最尤推定量の評価関数に一般化された重みを加えて計算した推定量,および最尤推定量に修正項を加えた推定量の2種類のものを新たに構成している.そして計算実験によってそれらが確かに最尤推定量より小さな分散を与えること,およびそれらの分散がクラメル・ラオの下界として知られている限界に非常に近い値を達成することを確認している.

 第4章は「結論」で,以上の成果をまとめるとともに,今後に残された課題についても言及している.

 以上を要するに,本論文はオプティカルフローから立体の形状と運動を復元するための従来の方法が必ずしも最適ではないことを理論的に示すと同時に,それに代わる新しい手法を提案し,その有効性を理論的および実験的に示したもので,数理工学の発展に大きく貢献するものである.よって博士(工学)の学位論文として合格と認める.

UTokyo Repositoryリンク