学位論文要旨



No 111827
著者(漢字) 金原,史和
著者(英字)
著者(カナ) カネハラ,フミカズ
標題(和) プリミティブ分解によるユーザの視点に基づいた画像検索
標題(洋)
報告番号 111827
報告番号 甲11827
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3625号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 濱田,喬
 東京大学 教授 渕,一博
 東京大学 教授 高木,幹雄
 東京大学 教授 坂内,正夫
 東京大学 教授 浅野,正一郎
 東京大学 助教授 相田,仁
内容要旨

 近年,大容量記憶装置の発達,高解像度ディスプレイの出現などにより,計算機上で画像データを柔軟に扱えることが可能になってきたと共に画像データベースに対する需要も急速に増している.その画像データベースを構築する際に解決すべき重要な問題の一つとして,その検索方法が挙げられ,特に最近では画像の内容に基づいた検索(内容検索)についての研究が盛んである.商用レベルでは,画像の内容はキーワードとして人手により付与されるが,これには2つの大きな問題点がある.一つは大量の画像データに対する人手によるキーワード付与の労力と客観性の問題,もう一つは言葉では表現し難い画像メディア特有な検索要求への対応の問題である.前者についてはシーン解析や画像認識によるキーワードの自動抽出に関する研究が行われているが,実用には遠いというのが実情である.後者に関しては,スケッチ検索・ナビゲーション検索などの例示画検索の研究が主流であり,技術的には類似検索という言葉でまとめられる.これもまた対象を特定したものを除いては満足する検索は実現されていない.将来,柔軟な画像データベースを構築するには,キーワードなどの言葉による検索形態と例示画検索のような言葉に依らない検索形態が個々にまたは統合してユーザに提供されるべきであると考えられる.本論文で扱うのは,この後者に相当する類似画像検索である.

 しかし,一般にこのような画像の内容に基づいたユーザの検索要求は曖昧でありかつ多様である.例えば,スケッチ検索において求める画像を正確に再現することはまず無理であり,どのような特徴に着目してスケッチされたかも推測し難い.また,描画された例示画内には明確な部分もあれば曖昧な部分も存在する.このように,より柔軟な検索を提供するにはユーザがどの部分のどの特徴に着目しているかを検索に反映させる必要がある.本論文の主眼はこの点にあり,即ち,「ユーザの視点や意図を反映することで柔軟な画像の内容検索を実現する」,ことを目的とするものである.特に,ユーザの漠然とした,または断片的な記憶を手がかりとした検索には望まれることである.

 以上の背景を基に,本研究では画像検索プロトタイプシステムVPointを構築した.VPointでは構造化(プリミティブ分解)した画像情報を用いて,スケッチ及びナビゲーション形態の検索を提供するものである.本研究の特徴は,ユーザの視点や意図を曖昧度として扱う点,それに伴う効率的なマッチング機構,ユーザの意図や視点を明示的に指示できる検索インタフェース;画像のプリミティブへの分解手法,さらに,これらを統合したシステム構築にある.

 VPointでは,入力する検索の問い合わせ情報は,スケッチ検索やナビゲーション検索を主体とした例示画検索の形態を用いる.スケッチ検索はユーザによって描画された図形・画像を問い合わせ情報とするものであり,ナビゲーション検索は,一枚または複数枚の検索結果の画像の部分情報を間い合わせ情報とする検索である.具体的には,スケッチ検索の場合,ユーザは複数の図形をVPointの検索インタフェース上に描画し,それら各図形から抽出される複数の属性及び関係の特徴についての曖昧度(または着目度,明確度)を明示的に指示する.この曖昧度のことを,本論文では,"ゆらぎ"という概念で表し,ユーザはこのゆらぎの値を指示することで検索の幅を狭めたり広げたりするわけである.この情報は検索用の表現としてシグネチャファイルに変換され,ゆらぎの値によって立てられるビット数が変化する.

 一方,データとなる画像は構造化処理が施されプリミティブという単位に分解され,検索用のシグネチャファイルに変換される.具体的には原画像を何らかの手法によって,複数の領域や図形(本論文ではプリミティブと呼んでいる)に分割し,各プリミティブについての属性及び関係についての特徴を,検索側同様に抽出して検索用のインデックス,つまりシグネチャに変換する.プリミティブへの分解ができれば,ナビゲーション検索に際しての編集・操作が簡便に行えるし,着目箇所の指示も容易になる.また構造符号化などへの拡張性もある.

 もちろん,このような画像の分解処理を自動的に行うことは非常に困難な問題であるが,ここでは敢えて人手の介入を行わず,また対象に関する知識やモデルを用いていない.但し,扱う画像のクラスや抽出する特徴によってそれぞれ目的に合った方法を用いる.例えば,2値画像とカラー画像とでは自ずから処理方法が異なる.そのためVPointでは,全ての画像データはプリミティブの集合として扱うことで,検索インタフェース及び一連の検索処理に関するモジュールを対象データから独立させている.よって異なる画像データを扱う場合でも,インデックスに関する仕様記述の変更と,必要に応じたプリミティブの特徴抽出モジュールを変更するだけで,そのまま使用できる構成になっている.

 シグネチャのマッチング処理はシフト演算と論理積演算,及び2部グラフのマッチング処理によって行われる.この方法は,ユークリッド距離やグラフの類似度を測定するより効率的であり簡便でという長所がある.

 VPointは,このように,ユーザがオブジェクト単位で着目箇所を選択し,用意された複数の特徴のゆらぎを指示することで,ユーザの視点というものをシステムに明示的に伝達することを実現している.

 本論文では,このVPointの具体的な応用例として,2値の動物のシルエット画像,簡易なカラーパターン画像である国旗画像,及び対象不特定の自然画像を対象とした場合について述べる.

 シルエット画像は,その全体の輪郭が特徴になり,色情報を活用することができない分.局所的な特徴を記述することが困難である.そこで形状分解を行うことにより,シルエット画像をプリミティブに分解する.本論文では,この形状分解の手法についても新たな提案をしている.基本的な考え方は,凹部から形状内部に浸食を起こして分解を行う.具体的には,頂点列で表現された輪郭において,各凹部での曲率に関する極値を求め.その極値が存在する頂点に浸食の大きさを表すベクトルを計算する.そして,そのベクトルを基に形状内部への浸食時間を算出し,対象形状を再帰的に2分割していく.本手法の特徴は,対象物体がほぼ凸に分解できること,形状のボリュームを考慮していることが挙げられる.また計算量は輪郭を表す頂点数をnとして,極値を持つ凹部の頂点の数をmとすると,O(mn)のオーダですむ.

 カラー画像の場合は,画像を領域分割する.但し,主に画像の大域的または部分的概略を検索対象としているので,必要とされる領域分割は画像の概略を適切に記述できればよく,よって大きなしかも有意な領域を抽出して,画像を抽象化することが目的となる.本研究では,適切な領域分割は現状の技術では非常に困難であるという状況を考慮して,有意無意にかかわらず領域情報を抽出し,それら全てをプリミティブとして扱うという方針をとった.

 まず,色ヒストグラム空間を利用して,画像を微細に領域分割し,次に各領域を併合していく.併合の基準は,併合に要するコストを計算し,最小のコストの組から併合する.つまり階層的クラスタリングを行う.コストの計算方法は,併合対象の領域間に存在するエッジ輝度の大きさと,領域の色と画素数の値より算出される.即ち境界に輝度値の大きいエッジが存在する場合や,領域間の色の距離が大きい場合は,コストが大きくなる.この併合処理は領域数が1つになるまで行われ,その併合過程の履歴を基にして,全体の併合総コストに対して一定の割合以上のコストを要した領域をプリミティブとして出力する.また,出力されるプリミティブの中で,形状が類似しているものや重複しているものは削除し,各プリミティブにはシルエット画像に用いた形状分解手法を再び適用して,雑音や陰影などに対処するとともに,少しでも有意なプリミティブが出力されるように努めている.国旗の場合も自然画の場合も細かい相違点はあるものの,ほぼ上記の処理でプリミティブを抽出する.

 さて,今度はプリミティブから抽出される特徴量であるが,シルエットの場合もカラー画像の場合も,位置,大きさ,形状,向き,または色などに関して,7〜9種類の属性と5種類の関係を用いる.いずれも個々の特徴は簡易なものであり,必要に応じて容易に追加できる.また,これらの特徴は個々に独立して検索側からも扱えるので,多様な検索が行なえるようになるわけである.

 本論文では,以上の3つの応用例を通じて,VPointの有用さを示すとともに,個々の対象画像の処理についての要素技術についても検討を行なった.類似度というものは人間の主観に依存するので,それゆえ,ユーザの視点を反映できるメカニズムの一つのアプローチを本論文では提案している.種々の画像情報処理活動にはもちろん,特に断片的な記憶をてがかりに試行錯誤を繰り返しながら特定の目的の画像を捜し当てるような検索には,本手法は従来には見られない能力を発揮するものである.

審査要旨

 本論文は「プリミティブ分解によるユーザの視点に基づいた画像検索」と題し,類似画像検索に基づいた画像の内容検索のための検索手法を提案し,そのプロトタイプシステムの実装,関連する画像処理技術の開発などの一連の研究をまとめたものであって,7章からなる.

 第1章は「序論」であって,本研究の背景,必要性,目的,概要及び位量づけについて述べている.すなわち,本研究の目的は,ユーザの視点や意図を反映した柔軟な画像の内容検索手法を提案し,そのプロトタイプシステムを実装して提案する手法を検証することにあることを述べている.また,画像検索技術の歴史や現状を概観して,本研究の位置づけを明らかにするとともに,論文の構成について説明している.

 第2章は「関連研究」と題し,本研究で対象とする画像の内容検索または類似検索についての従来の研究を,システムがユーザに許している検索要求の多様性及び柔軟性という視点から分類して論じており,本研究の新規性,重要性を明らかにしている.

 第3章は「画像検索システムVpoint」と題し,検索機構について提案し,これを実装したプロトタイプシステムVPointの概要について論じている.本研究では,検索対象例として3種類のデータを用いているが,それらに共通する部分を本章では解説している.即ち,検索処理の流れ,ユーザの視点を反映する検索インタフェース,ゆらぎという概念を用いた検索条件の操作,シグネチャファイルを用いたマッチング手法,画像の構造化の方針について論じ,画像をプリミティブに分解して,ユーザが,その個々のプリミティブについての複数の属性及び関係に関する検索条件を設定できる機構を提案している.

 第4章は「シルエット画像検索」と題し,VPointの実現例の一つとしてシルエット画像を対象とした実装について述べている.すなわち,対象シルエットを複数の構成部分に分解し,それらをプリミティブとして提案する検索機構を基にした実装について論じ,その検索例を紹介している.またこの際,シルエットの大局的な形状と局所的な輪郭の曲率とを考慮した新たな形状分解のための手法を提案している.

 第5章は「カラー画像検索」と題し,さらにVPointの実現例としてカラー画像を対象とした検索システムの実装について述べている.カラー画像もシルエット画像同様にプリミティブに分解することを基本としているが,本章では,領域分割を基にした冗長なプリミティブの抽出方法について論じている.さらに,カラー画像の中でも,国旗画像と自然画像の二つの対象を例として扱っており,それぞれについての実装及び検索例について解説している.

 第6章は「評価」と題し,VPointを通じて本画像検索手法の有効性の検証を目的とする.まず,定性的な評価として,VPointの特長及び課題点について述べ,関連の深い従来の検索システムとの比較を行っている.次に定量的評価として,想定したいくつかの検索要求に対する適合率,呼出率についての評価を,シルエット画像検索,国旗画像検索,自然画像検索について個々に行っている.

 第7章は「結論」であって,本論文をまとめるとともに,今後の展望について述べている.

 以上これを要するに本論文は,マルチメディアデータベースないしは画像の類似検索を対象として,独自の検索手法及び要素技術について提案し,プロトタイプシステムを実装するとともに,パターン画像や一般的な自然画像への適用を試み,その有効性を確認したものであって,今後ますます需要が高まるマルチメディアシステムに有用な技術及びコンセプトを与え,電子工学の発展に寄与するところが大である.

 よって本論文は博士(工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク http://hdl.handle.net/2261/1876