学位論文要旨



No 212011
著者(漢字) 志沢,雅彦
著者(英字)
著者(カナ) シザワ,マサヒコ
標題(和) 物体の運動と形状の3次元復元と操作のための体系的計算理論
標題(洋)
報告番号 212011
報告番号 乙12011
学位授与日 1994.12.08
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第12011号
研究科 工学系研究科
専攻 精密機械工学専攻
論文審査委員 主査: 東京大学 教授 大園,成夫
 東京大学 教授 杉原,厚吉
 東京大学 教授 原島,博
 東京大学 助教授 高増,潔
 東京大学 助教授 鈴木,宏正
内容要旨

 人間と同等か、あるいは、それを越える視覚機能を計算機と機械に与えることを目標とするコンピュータビジョンは、1960年代前半に人工知能研究の一分科として始まった。その後、1960年代後半から1970年代にかけて、主に単純化された「積木の世界」の問題に対して、初期の先駆的研究が行われた。1980年代に至って、3次元幾何学と物理光学に基づいてビジョンの問題を数理的に解明する必要性が強調された。そして、コンピュータビジョンとして独立した研究分野を形成し、多くの問題が解かれた。しかし、コンピュータビジョンを含む視覚情報処理の成果はいまだに体系化されていない。画像を個々の物体領域に分割するセグメンテーションの問題も根本的には解決されていない。今後の発展を期すためには、共通な部分を整理、抽象化し、一般性を持たせる必要がある。この抽象化によって、共通の計算原理の統一的適用が可能になる。

 本論文では、コンピュータビジョンにおいて、動画像情報とステレオ画像情報から3次元世界を推定する代表的手法である「オプティカルフロー」、「ステレオマッチング」、「運動からの3次元構造復元」、「疎ダータからの表面復元」に関して、演算子形式を用いた体系化と拡張を試みた。ビジョンの基本拘束方程式の多くは、推定したい属性を表すベクトルpをパラメータとしてもつ線形演算子a(p)(これを振幅演算子と呼ぶ)を用いて、

 

 なる形式に書かれる。f(x)は、画像そのもの、または、画像から2次的に計算されるデータの分布を表す関数(一般には超関数)である。この形式のもとで、複数の属性情報を画像から推定するために必要な基本拘束方程式を導出する基本原理「重ね合わせの原理」を提案した。h組の異たるパラメータp1,p2,…,phをもつh個の画像生成要因が、f(x)に加法的に重畳されていると仮定する。このとき、重ね合わせの原理によれば、ある前提条件のもとで、

 

 なる基本拘束方程式が成立する。この基本拘束方程式をもとに、h組のパラメータp1,p2,…,phが直接推定可能である。この基本原理を用いると、従来から困難とされてきたセグメンテーションの問題も同時に解決される。重ね合わせの原理そのものは、物理数学で常識である。しかし、コンピュータビジョンにおいて持つ意味は、従来知られていなかった。

 まず、この重ね合わせの原理を用いて、初期視覚の基本処理である「オプティカルフロー検出」と「ステレオ視差検出」を拡張した。これらは、画像面上でのパターンのずれ量を検出するという意味で類似している。以下、オプティカルフローについて説明する。オプティカルフローは、物体運動に対応する画像面上の瞬時速度場である。オプティカルフロー(u,v)の振幅演算子を、次の時空間微分演算子で定義した。

 

 (u,v)は、オプティカルフローを表すベクトルである。(x,y)を画像面上の座標、tを時間軸として、動画像の輝度をf(x,y,t)なるスカラー値関数で表現する。すると、オプティカルフローに関する従来の基本拘束方程式は、次式である。

 

 これを、方程式(1)の形式に拡張すれば、複数のオプティカルフローに関する基本拘束方程式が得られる。例えば、2個のオプティカルフロー(u1,v1)と(u2,v2)に関する基本拘束方程式は、

 

 である。この方程式をもとに、2個のフローベクトル(u1,v1)と(u2,v2)を同時に計算するアルゴリズムを導いた。

 次に、重ね合わせの原理を、中期視覚の基本処理である2つの計算理論に適用した。まず、運動情報からの3次元構造復元問題に応用し、複数の3次元運動を直接数値計算だけで推定する枠組に拡張した。次に、疎データからの表面復元の標準的手法である正則化理論に基づいた関数近似法を拡張し、重なり合った複数表面の3次元復元を可能にした。この表面復元に関する例を以下に示す。表面の方程式y=f(x)(x∈R2,y∈R)を、次式で表現される2重表面に拡張した(図1)。

 

 この方程式も「重ね合わせの原理」から導かれる。この方程式をもとに、表面復元のための標準正則化理論を拡張し、重なり合った2枚の表面を、疎に分布した3次元データから復元する超並列緩和アルゴリズムを導いた。この方法では、従来不可欠と考えられていたデータの各表面へのクラスタリングは不要である。

図1:2枚の重なり合う曲面によって近似されるべきデータの例断面図を示す。多層に重なり合ったデータの関数近似が必要である。

 この「重ね合わせの原理」を用いた計算手法は、本論文で扱った視覚情報処理に限らず、類似の計算手法を用いる他分野においても広い応用が考えられる。

 視覚情報処理の応用の多くは、推定された3次元形状情報と3次元運動情報に基づいて、計算機の内部で変換操作が行われ、3次元シーンに関する推論や、マン-マシンインタフェースのための表示処理が行われる。このとき、幾何情報の座標変換が頻繁に必要である。ディジタル計算における座標変換では、有限精度演算のもとで効率的な操作が必要である。従来の座標変換では、ディジタル計算の量子化誤差のために、変換によって原情報の一部が失われる。つまり、演算が可逆でなかった。したがって、計算機にこの座標変換を実現する場合、原データを常に保持する必要があった。本論文では、計算誤差が存在する有限精度演算であるにもかかわらず、完全に可逆演算可能な座標変換を実現する基本演算原理を提案した。この基本演算原理は、任意次元の非同次座標系における任意の等積アフィン変換と、任意次元の同次座標系における任意の非特異射影変換に適用できる。以下、2次元等積アフィン変換の場合を説明する。2次元等積アフィン変換は、図2に示した7種類の等積基本変換(各座標軸方向の並進運動t1,t2、各座標軸方向の斜交軸変換p12,p21、各座標軸に関する対称変換q1,q2、原点に関する対称変換r12)の積に分解できる。これらの基本変換を整数座標上の変換で近似する。このとき、この近似変換が整数座標格子点集合における1対1写像になるように近似する。これは容易である。すると、写像の合成則から、これら整数近似された基本変換を再び合成した変換も1対1写像である。この合成された変換を、もとの等積アフィン変換の近似変換と考え、ディジタル計算機上に演算として実現する。このように、演算に誤差が存在するにもかかわらず、厳密な可逆演算だけから座標変換が実現できる。この座標変換の可逆演算原理は、一般次元で実現可能である。したがって、本論文で論じたコンピュータビジョンのための幾何情報処理に限らず、ディジタル数値計算のための基本演算原理として広い応用が可能である。

図2:2次元等積1次変換のための基本変換点線は変換前、実線は変換後の図形を示す。
審査要旨

 本論文は,「物体の運動と形状の3次元復元と操作のための体系的計算理論」と題し,5章からなる.

 第1章「序論」では,研究の背景および目的を述べている.

 第2章「重ね合わせの原理に基づいた多重オプティカルフロー・多重視差抽出の計算理論」では,運動視の初期視覚処理であるオプティカルフローと,ステレオ視の初期視覚処理である両眼視差の計算理論を拡張している.ここで,オプティカルフローとは,画像面上における見かけの運動ベクトルである.この理論を用いて,画像面の各点において,複数のオプティカルフローベクトル,両眼視差を推定している.

 第2.1節「多重オプティカルフローの計算理論」では,鏡面性や透明性を持つ物体によって生じる複数のフロー領域と,物体境界で生じるフロー場の不連続を扱う方法を提案している.従来のオプティカルフロー推定法では,各点で単一のフローを仮定していたため,この状況を扱うことが不可能であった.運動パラメータ数を決定するための基準も与えられている.ここで用いられた手法は,パラメトリック線形演算子を用いた拘束方程式の表現法である.この演算子は,フローベクトルをパラメータとしている.演算子を画像に施した結果が零になるという形式で基本拘束方程式を表現した.このとき,複数の動パターンが和の形に重畳されている条件のもとで成立する方程式は,複数の演算子を積で合成したものであることを示している.これは, 「重ね合わせの原理」の数学的表現である.

 第2.2節「多重ステレオ視差の計算理論」では,左右2枚からなる2眼ステレオ画像を扱っている.ステレオ視差が各点で複数存在する場合の理論が提案されている.オプティカルフローと同じく,パラメトリック線形演算子を用いた基本拘束式の表現法を用いている.

 第2.3節「重ね合わせの原理の一般表現」では,第2.1節と第2.2節で用いた手法を一般化し,パターンの重ね合わせを拘束方程式として表現する統一的方法を提案している.

 第3章「多重3次元運動・構造復元と多重3次元表面復元の計算理論」では,画像面における特徴点の動きから,3次元空間中の複数剛体の3次元運動パラメータを求める方法と,3次元空間で重なり合った複数枚のなめらかな表面を疎に分布したデータ点から復元する方法を提案している.これらは,第2.3節で展開された一般論がら導かれている.

 第3.1節「多重3次元運動・構造復元の計算理論」では,まず,複数剛体の運動を撮像した画像面上における特徴点対応が満たす基本方程式を導いている.次に,異なる運動をする2剛体の3次元並進・回転運動と各剛体の3次元構造情報を推定する計算アルゴリズムを導いている.このアルゴリズムでは,2剛体の運動パラメータが標準的な数値計算だけを用いて求められている.各物体への特徴点分離も推定された2組の運動パラメータを用いて,一撃的に行われている.3次元構造の復元は,分離された特徴点に対して,カメラからの相対距離を計算している.従来の複数運動推定法では,パラメータ空間に対する投票法と,画像面上で物体領域を分割するセグメンテーション手法が標準的である.しかし,これらの従来法を直接用いようとすると,計算機の空間計算量または時間計算量が膨大となり,問題を簡単化しない限り,実現不可能であった.標準的な数値計算手段だけを用いて,従来不可能と考えられていた本問題の解法を可能にしている.

 第3.2節「多価関数への標準正則化理論の拡張となめらかな多重表面復元」では,疎らに与えられたデータから,なめらかな表面を復元するための標準正則化手法を拡張している.複数の表面が重なりあって3次元空間中に存在する場合,疎らに分布したデータから表面を復元するためには,多価関数による近似手法が必要である.従来は,各表面へのデータの分離と表面の復元の協調処理を必要としていた.それに対して,本節では,多価関数の直接表現法を提案している.これを用いて,データの分離処理を行わずに,直接,複数表面を復元する超並列型アルゴリズムを導き,シミュレーションを実行している.

 第4章「物体運動の効率的計算機表現のための可逆座標変換法」では,3次元幾何データに対する新しい座標変換法を提案している.従来の座標変換法では,変換の計算誤差のために,情報が損失し,厳密な意味での逆変換を実現できなかった.これに対して,本章では,有限精度の整数変数を座標表現とした場合について,計算誤差の存在にもかかわらず,変換前後の状態が厳密に1対1対応する座標変換の実現法を提案している.

 第4.1節「整数座標における可逆座標変換(1)-非同次座標における等積アフィン変換-」では,整数変数を用いた非同次座標表現において,任意の等積アフィン変換を可逆的に実現する計算方法を示している.与えられた変換行列を,整数座標における1対1写像近似が容易な基本変換に分解している.各基本変換を整数座標上で1対1写像で近似し,再び合成すると全体として1対1写像,つまり可逆座標変換になる事実を用いている.

 第4.2節「整数座標における可逆座標変換(2)-同次座標における非特異射影変換-」では,整数変数を用いた4次元同次座標における3次元幾何データの座標変換について,可逆座標変換の実現方法を示している.まず,4次元の等積線形変換を用いて,全ての3次元非特異射影変換を表現できる事実を指摘した.すると,3次元非特異射影変換を,4次元非同次座標における等積線形変換と見なす事ができる.非同次整数座標における4次元等積線形変換は,第4.1節の方法を4次元に拡張して適用すると1対1写像で近似できる.

 第5章「結論と展望」では,研究を総括し,今後を展望している.

 以上,本論文は,次の2点について,コンピュータビジョンと幾何情報処理の分野に新しい方向と可能性を拓いたものといえる.(1)パラメトリック線形演算子を用いた「重ね合わせの原理」をコンピュータビジョンの分野に初めて導入した.従来,複数の物体領域に画像を分割する問題であるセグメンテーションと,重なり合う複数物体の扱いは困難と見なされ,多くの近似手法が提案されてきた.これを方程式のレベルで解決する手段を提供した.さらに,従来からあったコンピュータビジョンの種々の理論とアルゴリズムをこれを用いて拡張した.(2)画像から復元された3次元幾何データの座標変換を有限精度の整数座標のもとで厳密に可逆的に実現する手段を提案した.

 これらの成果は,コンピュータビジョンと幾何情報処理における極めて基本的貢献である.よって,本論文は,博士(工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク