学位論文要旨詳細

学位論文要旨


No		215631
著者（漢字）		柳井,啓司
著者（英字）
著者（カナ）		ヤナイ,ケイジ
標題（和）		実世界画像に対する画像認識の研究
標題（洋）
報告番号		215631
報告番号		乙15631
学位授与日		2003.03.12
学位種別		論文博士
学位種類		博士(工学)
学位記番号		第15631号
研究科		工学系研究科
専攻		情報工学専攻
論文審査委員		主査：　東京大学　教授　武市,正人　東京大学　教授　田中,英彦　東京大学　教授　井上,博允　東京大学　教授　杉原,厚吉　東京大学　教授　石塚,満　東北大学　教授　出口,光一郎
内容要旨		要旨を表示する　近年の画像入力機器の普及や記憶装置の大容量化により、計算機への実世界画像の蓄積が容易になって来ている。そのため、画像の意味内容に応じた画像検索や自動分類などの実現が望まれており、計算機によって自動的に画像の意味内容を理解する技術である画像認識の要求が高まっている。けれども、多くの従来の画像認識の研究では、顔画像などのある特定の対象の認識を目的としていたり、工業部品の認識の様に認識対象が完全に既知であることを前提としていたりして、限定のない実世界の画像に対しては適用が難しいという問題点があった。　そこで、本研究では、実世界画像の持つ2つの困難な問題(1)多数の種類の物体が存在しており、物体の種類によって適する認識方法、モデル表現が異なる。(2)単一種類の物体でも様々な個体が存在し、画像中に現れる見え方が多様である。に対して、それぞれシステム構成法と認識方法の観点から研究を行った。(1)の問題に対しては、従来の画像認識の研究で多数提案されている特定種類の物体に対する認識手法と知識表現を統合して対処することとし、そのために、多数の認識手法と知識表現を統合するための認識システム構築法を提案する。(2)の問題については、単一種類の物体の画像中での様々な現れ方に対応するために、多数の学習画像をWWW(World-Wide Web)から自動収集し、自動的に画像認識のための知識ベースを構築する方法を提案する。　本論文は、全部で10章からなる。　第1章では、研究の背景、目的、位置付けについて述べる。　第2章では、実世界画像に対する従来の研究についてまとめる。研究の流れを大きく分けると、システム構築に関する研究と、認識手法に関する研究の2つがあることを示す。　第3章から第6章では、前半部として、実世界画像に対応したシステムを構築するために、異なる多数の認識手法や知識表現の統合をマルチエージェントの考え方に基づいて実現する方法について提案する。　第3章では、従来の実世界画像に対する認識システムの構成法についてまとめる。従来の認識システムでは、例えば、屋外画像のみ、航空写真のみ、という様に対象を予め想定してシステム構築が行われてきた。そのため、システムの構成が認識対象の画像の種類に依存したものになっていたり、各対象物の認識のための知識が相互に密接な関係を持っていために、異なる種類の画像に対する知識を混在させることが困難で、様々な種類の画像が存在する実世界画像の認識には適用が難しいという問題点があったことを指摘する。　第4章では、マルチエージェントによる画像認識システムの構築法を提案する。多様な認識対象に対応するために、本研究ではマルチエージェントによってシステムを構成する。各エージェントは1種類の物体のみを認識する独立した認識システムであり、そうすることによって、物体毎にそれぞれに異なる知識の表現および認識手法を用いることができ、システム構築の自由度が増す。システムの全体の最終的な認識結果は、エージェント間の相互作用によって求める。実験により、提案手法によって室内画像と屋外画像の両方に対応できる認識システムを構築出来ることを示す。　第5章では、マルチエージェントによる画像認識システムに物体間の定性的な位置関係に関する推論機構を導入することを提案し、より複雑な画像の認識を可能とする。実世界画像においては、物体が物体の上に載ったり、手前に位置したりして、物体が物体を隠すオクルージョンが発生する。オクルージョンのために一部分しか画像中に現れていない物体を認識可能とするためには、物体間の位置関係を利用することが不可欠であるが、従来は主に画像上での物体領域同士の2次元的な位置関係しか利用されていなかった。ここでは、物体の定性的な3次元情報を利用して、定性的な3次元位置関係の推論を行うことにより、実世界画像で問題となるオクルージョンに対処する方法を提案する。実験では、室内画像に対するシステムを実現し、その効果を示す。　第6章では、画像中に小さくしか現われていない対象の認識を高解像度画像を利用することによって認識可能とする方法を提案する。単純に高解像度画像を用いることは、認識時間の著しい増大を招くが、ここでは、多重解像度解析を導入することによって、効率的な認識を実現することを提案し、より複雑な実世界画像が認識可能となることを実験にて示す。　第7章から第9章では、後半部として、画像内容を表すテキスト情報を伴った多種多様な画像をWWWから自動収集することによって、画像認識のための知識ベースを自動構築し、同一種類でも多様な個体が含まれる実世界画像を認識可能なシステムを実現する方法について提案する。前半部では、認識対象のモデルを人手で与えていたために、それぞれの対象毎に適切な認識方法およびモデル表現を採用することが出来たが、その一方で「机」「椅子」などの簡単な形状の人工物以外に対応した認識モジュールを構築するのは困難であるという問題点があった。そこで、第7章以降では、学習による認識システム構築を試みる。　第7章では、多数の学習画像を用いた実世界画像の認識について従来の研究をまとめる。そして、従来の研究では、学習画像を収集することが困難であったために、顔画像や自動車の画像などの限定された対象にしか実験が行われていなかったという問題点を指摘する。　第8章では、実世界画像を大量にしかも手軽に収集する方法として、WWWから自動的に大量の実世界画像を収集する方法について提案する。WWW空間中に存在する画像は現在数億枚と言われ、様々な画像が存在している。WWW空間中に存在する画像はその多くが画像内容を表すテキスト情報を伴っているので、テキスト情報を解析することによって、ユーザの望むあらゆる画像をWWWから収集することが可能である。　第9章では、提案した画像収集法を用いて様々な実世界画像を自動収集し、それらを学習画像として、実世界画像に対する認識を行うことを提案する。最初の学習段階では、WWWから認識したい対象、例えば、「ライオン」「りんご」などの画像を各種類(クラス)毎に数百枚から数千枚程度収集する。そして、それらから色情報、テクスチャ情報などを画像特徴として抽出し、各クラス毎に画像特徴に関する知識ベースを構築する。次に、認識段階では、認識対象の画像から同様に画像特徴を抽出し、知識ベースと照合を行い、最も可能性の高いクラスに分類し、認識を行う。実験では、この提案手法により、単語入力のみで画像に関する知識をまったく与えることなく、画像分類が可能になることを示す。　第10章は、本論文の内容をまとめ、今後の実画像認識の研究についての課題、展望を述べる。
審査要旨		要旨を表示する　近年の画像入力機器の普及や記憶装置の大容量化により、計算機への実世界画像の蓄積が容易になってきており、画像の意味内容に応じた画像検索や自動分類などの実現のために、計算機による画像認識技術への要求が高まっている。従来の画像認識の研究では、顔画像など特定の対象の認識を目的としていたり、工業部品の認識の様に認識対象が完全に既知であることを前提としていたりしており、対象を限定しない実世界の画像に対しては適用が難しいという問題点があった。これに対して本研究は、実世界画像の持つ2つの困難な問題である(1)多数の種類の物体が存在していて物体の種類によって適する認識方法やモデル表現が異なる場合、(2)単一種類の物体でも様々な個体が存在して、画像中に現れる見え方が多様である場合、に対してそれぞれシステム構成法と認識方法の観点から追究したものである。(1)に対しては、従来の画像認識の研究で多数提案されている特定種類の物体に対する認識手法と知識表現を統合して対処することとし、多数の認識手法と知識表現を統合するための認識システム構築法を提案している。(2)については、単一種類の物体の画像中での様々な現れ方に対応するために、多数の学習画像をWWW(World-Wide Web)から自動収集して自動的に画像認識のための知識ベースを構築する方法を提案している。　本論文は「実世界画像に対する画像認識の研究」と題し、10章からなる。　第1章「序論」では、研究の背景、目的、位置付けについて述べている。　第2章「実世界画像の物体認識」では、実世界画像に対する従来の研究についてまとめている。従来の研究の流れは、システム構築に関する研究と認識手法に関する研究の2つがあることを述べている。　第3章から第6章では、実世界画像に対応したシステムを構築するために、異なる多数の認識手法や知識表現の統合をマルチエージェントの考え方に基づいて実現する方法を提案している。　第3章「認識システムの構成法」では、従来の実世界画像に対する認識システムの構成法についてまとめており、従来の認識システムでは、対象を予め想定してシステム構築が行われてきたので、システムの構成が認識対象の画像の種類に依存したものになっていたり、各対象物の認識のための知識が相互に密接な関係を持っていたりするために、異なる種類の画像に対する知識を混在させることが困難であり、様々な種類の画像が存在する実世界画像の認識には適用が難しいという問題点があることを指摘している。　第4章「マルチエージェント型画像理解システムの提案」では、前章にあげた問題点を解決するためのマルチエージェントによる画像認識システムの構築法を提案している。各エージェントが1種類の物体のみを認識する独立した認識システムとし、物体毎にそれぞれに異なる知識の表現および認識手法を用いることができ、システム構築の自由度が増すことを主張している。この有効性は、実験によって室内画像と屋外画像の両方に対応できる認識システムの構築によって確認している。　第5章「物体間の位置関係に関する空間推論の導入の提案」では、マルチエージェントによる画像認識システムに物体間の定性的な位置関係に関する推論機構を導入することを提案し、より複雑な画像の認識を可能とする方法を示している。実世界画像においては、物体が物体の上に載ったり、手前に位置したりして、物体が物体を隠すオクルージョンが発生する。オクルージョンのために一部分しか画像中に現れていない物体を認識可能とするためには、物体間の位置関係を利用することが不可欠であるが、従来は主に画像上での物体領域同士の2次元的な位置関係しか利用されていなかった。ここでは、物体の定性的な3次元情報を利用して定性的な3次元位置関係の推論を行うことにより、実世界画像で問題となるオクルージョンに対処する方法を提案し、室内画像に対するシステムを実現してその有効性を実証している。　第6章「多重解像度解析の導入による高解像度画像の利用の提案」では、画像中に小さくしか現れていない対象を高解像度画像によって認識可能とする方法を提案している。単純に高解像度画像を用いることは、認識時間の著しい増大を招くが、ここでは、多重解像度解析を導入することによって、効率のよい認識を実現する手法を提案し、より複雑な実世界画像が認識可能となることを実験によって示している。　第7章から第9章では、画像内容を表すテキスト情報を伴った多種多様な画像をWWWから自動収集することによって画像認識のための知識ベースを自動構築し、同一種類でも多様な個体が含まれる実世界画像を認識可能なシステムを実現する方法を提案している。　第7章「多数の学習画像を用いた画像認識」では、多数の学習画像を用いた実世界画像の認識について従来の研究をまとめており、従来の研究では学習画像を収集することが困難であったために、顔画像や自動車の画像などの限定された対象にしか実験が行われていなかったという問題点を指摘している。　第8章「WWWからの画像収集方法の提案」では、実世界画像を大量にしかも手軽に収集する方法として、WWWから自動的に大量の実世界画像を収集する方法を提案している。WWW空間中に存在する画像はその多くが画像内容を表すテキスト情報を伴っているので、テキスト情報を解析することによってユーザの望む画像をWWWから収集することが可能であるということに着目したものである。　第9章「WWWからの収集画像を用いた画像分類の提案」では、提案した画像収集法を用いて様々な実世界画像を自動収集し、それらを学習画像として、実世界画像に対する認識を行う手法を提案している。最初の学習段階ではWWWから認識したい対象画像を各種類(クラス)毎に数百枚から数千枚程度収集し、それらから色情報、テクスチャ情報などを画像特徴として抽出して各クラス毎の画像特徴に関する知識ベースを構築する。次いで、認識段階では認識対象の画像から同様に画像特徴を抽出し、知識ベースと照合を行って最も可能性の高いクラスに分類して認識するものである。実験では、この提案手法により画像に関する知識をまったく与えることなく、単語入力のみで画像分類が可能になることを示している。　第10章「終章」では、本論文の内容をまとめ、今後の実画像認識の研究についての課題と展望を述べている。　以上、これを要するに、本研究は実世界画像に対する画像認識手法に関する提案と、その手法を実証するシステム構築と実験による評価を与えたものであり、情報工学の研究に貢献するところ大である。よって本論文は博士(工学)の論文として合格と認められる。
UTokyo Repositoryリンク		http://hdl.handle.net/2261/51214