学位論文要旨



No 129516
著者(漢字) 森川,重毅
著者(英字)
著者(カナ) モリカワ,シゲタカ
標題(和) 局所領域の空間的連続性に着目したシーン認識アルゴリズム
標題(洋) A Scene Recognition Algorithm Based on Spatial Continuity of Local Images
報告番号 129516
報告番号 甲29516
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第861号
研究科 新領域創成科学研究科
専攻 基盤情報学専攻
論文審査委員 主査: 東京大学 教授 柴田,直
 東京大学 教授 浅田,邦博
 東京大学 教授 相田,仁
 東京大学 教授 高木,信一
 東京大学 教授 峯松,信明
 東京大学 准教授 三田,吉郎
内容要旨 要旨を表示する

画像処理において、画像がどのような場所を表しているかを判別するシーン認識は、非常に有用な技術であると考えられる。例えば、ある画像があり、その画像が、どのような画所を表しているかを知ることができれば、その画像の中に存在するモノの候補を大幅に絞り込むことができる。これは、大量のモノの候補の中から、画像内にある特定のモノを探し出す場合などに大いに役立つと考えられる。しかし、シーン認識には、大きく2つの問題点があると考えられる。1つは、シーン画像が、さまざまな種類の構成要素から成り、それらが、画像内のさまざまな場所に位置し、さらに、多様な方向を向いているために、同じカテゴリ、すなわち同じ意味を表すシーン画像であっても、画像間の違い、すなわち、バリエーションが非常に大きくなってしまうということである。もう1つは、シーン画像が表している場所が、どのような場所であるかを正確に定義することが難しい、すなわち、シーン画像が表すカテゴリが曖昧であるということである。

本研究では、この2つの問題のうち、シーン画像のバリエーションが大きいということに着目した。そして、さまざまな特徴量の中でも、構造的な特徴に着目した。すなわち、構造的な特徴を用いて、シーン認識の問題を解決することを目的とする。

まず、はじめに、シーン画像の局所領域の構造的な特徴を用いたシーン認識アルゴリズムの提案を行った。提案手法は、まず、シーン画像の局所領域の構造的な特徴を抽出するために、ヒトの第1次視覚野に着目して提案されたProjected Principal-Edge Distribution (PPED) 法を用いることにした。このPPED法は、画像から4方向のエッジを抽出して、そのエッジをエッジの方向に射影してヒストグラムを生成してつなぎ合わせることにより画像の構造的な特徴を強調する、64x64ピクセルの大きさの領域の特徴を表現する手法である。さらに、シーン画像のバリエーションに対応するためにBag-of-Features法を用いることにした。この提案手法を用いてシーン画像の判別を試みた。さらに、Scale Invariant Feature Transform (SIFT) 法との比較も行った。実験結果より、シーン画像は画像全体で構造的な特徴を表すため、局所領域の構造的な特徴だけでは、特徴として不十分であることが分かった。

次に、この問題を解決するために、シーン画像特有の特徴に着目した。シーン画像には、局所領域において、 類似した構造の画像が繰り返し連続して出現するという特徴が存在する。しかし、その繰り返される画像の構造や回数は、画像内の位置や各画像間で異なっている。すなわち、この繰り返される画像自体が、シーン画像のバリエーションを表していると考えられる。しかし、バリエーションに対応するために用いているBag-of-Features法では、このパターンが繰り返されるという情報が失われてしまう。そこで、局所領域の画像の構造をベクトルとして表現し、その繰り返しを、異なる長さのシーケンスとして扱う手法を提案した。具体的には、シーン画像から4方向のエッジ画像を生成し、それぞれのエッジ画像を、エッジの方向と直交する方向に細長い矩形領域に切り取り、さらに、それを小さい正方形の領域に切り取っていく。そして、その切り取られた正方形の領域のエッジを射影することによりベクトルを生成する。その後、ベクトルを並べて、その後、隣接要素間の変化の大きい部分で分割し、まとめることにより、異なる長さのシーケンスの生成を行う。ここで、問題となったのが、異なる長さのシーケンスに対してBag-of-Features法を用いる際に、どのように異なる長さのシーケンス間の類似度を計算するのか、ということと、どのように異なる長さのシーケンスから、コードブックを生成するのか、ということであった。この問題を解決するために、まず、異なる長さのシーケンス間の類似度の計算には、DPマッチングを用いることにした。しかし、DPマッチングでは、2つのシーケンス間の相対的な類似度を求めるため、コードブック生成のためのアルゴリズムであるK-means法を用いることができない。そこでK-means法の代わりにK-medoids法を用いることにした。このシーン画像を異なる長さのシーケンスで表現する手法について、シーン画像の判別を試みた。実験結果より、シーケンスを用いた手法は、局所領域の構造的な特徴だけを用いた手法に比べ、シーン画像を正しく判別できていることが確認できた。しかし、比較手法であるSIFT法と比べると、まだ、不十分であることも同時に明らかになった。そこで、シーケンスを用いる手法の問題点について考察を行った。シーケンスを用いる手法では、シーケンスを生成するために、エッジの方向と直交する方向に、エッジ画像を、細長い矩形領域に切り取っていきシーケンスを生成した。この方法では、シーケンスの各要素間の相関が小さくなってしまい、シーケンスの連続性が弱くなり構造的な特徴を十分表現すことができていないのではないと考えられた。

そこで、シーケンスを用いた手法の改良を行った。具体的には、エッジ画像を、エッジの方向と平行な方向に細長い矩形領域に切り取っていき、更に、それを小さな正方形の領域に切り取っていくことによりシーケンスの要素となるベクトルを生成した。この改良により、シーケンスの各要素間の相関が高まり、シーケンスの連続性が強調され、構造的な特徴を十分表現することができると考えられる。さらに、シーケンスに更なる特徴の付加を行った。これは、改良したシーケンスを用いる手法に対して、シーケンスを生成するエッジ画像と同じ位置で、直交する方向のエッジ画像から、小さな正方形の領域を切り取り、そこからシーケンスの要素であるベクトルを生成する。そして、最終的に、その要素を、同じ位置の、シーケンスの要素とつなぎ合わせることにより、特徴の付加を行う。改良したシーケンスを用いる手法と、更なる特徴の付加を行う手法について、シーン画像の判別を試みた。実験結果より、改良したシーケンスを用いた手法は、改良前と比べ、シーン画像を正しく判別できていることが確認できた。さらに、更なる特徴の付加を行うことにより、シーン画像の判別結果が向上していることも確認できた。最終的に、比較手法であるSIFT法よりも優れた結果を示すことができた。

最後に、ヒトのシーン認識と提案手法の関連性について考察を行った。脳科学の分野では、ヒトがシーンを認識する際に、シーン画像の中の輪郭が形成する長い線分が非常に重要な役割を果しているということが報告されている。提案手法では、シーン認識の精度を向上させるために、アルゴリズムの改良を行ってきた。そして、最終的に、長く伸びるエッジをシーケンスとして扱う手法を提案している。すなわち、これはヒューリステック、すなわち、発見的方法により改良を行ってきた提案手法が、結果的に、ヒトのシーン認識に近づくように改良を行っていたと見ることができた。これは、提案手法がヒトの第1次視覚野に着目して提案されたPPED法を基にして改良を行ってきたためであると考えられる。ヒトの視覚情報処理の柔軟性は、さまざまな種類の情報を扱えるということだけではなく、さまざまな表現を同じように扱うことが出来るということでもあると考えられる。そこで、提案手法が、よりヒトのシーン認識に近い処理が行えるのではないかと考え、ヒトと同じようにシーンの写真画像だけでなく、同時に抽象的なシーンの線画像を扱うことができのるか実験を行った。実験は、シーンの写真画像のみを用いて提案手法の学習を行い、2値の抽象的なシーンの線画像に対して、類似度が近い学習画像の検索を行った。実験結果は必ずしも良いとはいえなかったが、一部は、正しく検索出来ていた。

以上より、シーン認識を目的とする中で、シーン画像間のバリエーションの違いだけでなく、シーン画像の表現自体の違いにも対応する、ヒトのように柔軟な画像処理を行うためのアルゴリズムの1つの可能性を示した。

審査要旨 要旨を表示する

本論文は,「局所領域の空間的連続性に着目したシーン認識アルゴリズム」(英訳:A Scene Recognition Algorithm Based on Spatial Continuity of Local Images)と題し,物体認識で重要となるその対象物の置かれたシーンの認識に関し,画像の方向性エッジ情報を用いて表現した局所画像特徴ベクトルの空間的な連続性に着目してシーンを表現するアルゴリズムを開発し,実験によりその有効性を実証した研究成果を纏めたもので,全文6章よりなる.

第1章は,序論であり,本研究の背景について議論するとともに,本論文の構成について述べている.

第2章は,「Projected Principal-Edge Distribution (PPED) 法によるシーン認識」と題し, PPED法と呼ばれる方向性エッジ情報を用いてシーンの局所画像を表現する手法により,シーン認識を行った結果について述べている.従来のPPED法に対し画像中の特徴的な線分情報をより豊富に抽出する改良を加え,一つのシーンを典型的なパターンの集合体として表現するBag-of-Features法でベクトル表現に変換,さらにProbabilistic Latent Semantic Analysis (PLSA) で次元を縮約した表現に変換した後,Support Vector Machineで認識を行っている.海岸,山岳,ハイウェー,市街地等7種類のシーンに対し認識実験を行い,その結果をSIFT法を局所画像表現の用いて得られるベストの結果と比較したところ,F-measureで0.710とSIFT法の0.823に比べ約14%低い結果となった.

第3章は,「エッジヒストグラムをシーケンスとして扱う特徴表現」と題し,前章で用いたPPEDベクトルでは空間的に広がったシーンの特徴を表現できないとして,ローカルな特徴ベクトルのシーケンスを用いて表現する新たなアルゴリズムについて述べている.先ず,画像を横または縦に細長い短冊状のスレッドに,隣接スレッド間でオーバラップさせながら分割し,各スレッド内において,隣接するローカル画像間で類似度が大きく変化するところでスレッドを分割してベクトルシーケンスを作成する.前章でのPPEDベクトルの代わりにこのベクトルシーケンスを基本要素として用いるが,その長さが各々異なるため,DPマッチングで類似度評価を用い,前章と同様にBag-of-Feature法で各画像を表現し分類を行った.その結果,F-masureは0.764まで改善したが,まだSIFT法の結果には及ばなかった.しかし,全体画像をローカルな画像の空間的なシーケンスの集合体として表現するという新たな考え方は,重要な提案である.

第4章は,「シーケンスの連続性と構造的な特徴を強調する特徴表現」と題し,前章で導入したシーケンス表現の性能向上に関する研究について述べている.前章では,横長のスレッドの分割には縦方向エッジのヒストグラムを用いていたが,このヒストグラム表現は,横方向の位置シフトに対してその形が敏感に変化する問題に着目し,横方向のエッジのヒストグラム表現を用いて横長スレッドの分割を行った.さらに,こうして分割した領域の表現に,縦方向エッジのヒストグラムも加えてその表現力を増強した.その結果,F-measureは0.826と上昇し,SIFT法の結果を上回った.これは重要な成果である.

第5章は,「シーケンスによる特徴表現とヒトのシーン認識の関連性」と題し,本研究で開発したシーン認識アルゴリズムとヒトの脳におけるシーン認識との関連について議論している.この研究では,発見的手法により認識性能の向上を達成してきたが,その結果は図らずもヒトの脳の処理と関連した手法になった.このことを,線画で描いたイラストに対し,第4章における方法で表現・分類した結果によって示している.

第6章は結論である.

以上要するに本論文は,シーン画像の認識に関し,方向性エッジ情報を用いた特徴ベクトルでローカルな画像を表現するとともに,そのローカルな画像の類似度に基づく空間的連続性に着目することにより,シーン画像の基本構成要素をベクトルのシーケンスとして表現された一種の単語と見做し,シーン画像全体をその単語で構成された文書のように扱い,Bag-of-Features法とSupport Vector Machineを用いたシーン認識アルゴリズムを開発したものであり,情報学の基盤の発展に寄与するところが少なくない.

よって本論文は博士(科学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク