学位論文要旨



No 112572
著者(漢字) 孟,洋
著者(英字)
著者(カナ) モウ,ヒロシ
標題(和) 目的や対象に応じたモデル化による画像認識手法に関する研究
標題(洋)
報告番号 112572
報告番号 甲12572
学位授与日 1997.03.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3850号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 高木,幹雄
 東京大学 教授 羽鳥,光俊
 東京大学 教授 濱田,喬
 東京大学 教授 安達,淳
 東京大学 助教授 喜連川,優
内容要旨

 近年の急速な情報処理機器の発達や情報通信基盤の整備に伴い、テレビの多チャンネル化に代表されるように、利用者が容易に多くの情報を獲得、利用することができる環境が整ってきている。このため、利用者が必要とする情報の獲得など、多種、多様な情報資源の高度で知的な利用を実現する、情報処理技術、特に映像認識技術が重要となっている。本研究では、利用者の要求に応じた高度な映像処理の実現との観点から、映像処理におけるいくつかの具体的な目的や対象を想定し、その状況における画像認識モデル、認識手法のあり方について検討を行い、それら状況に応じた画像認識の枠組を提案することを目的とする。

 第一章では、本研究の背景と目的、及び、論文の構成について述べる。

 第二章では、画像認識とモデル化について概説する。ここでは、背景技術をふまえ、画像認識技術に要求される要件をモデル化のあり方を中心に整理し、本研究の立場、及び、位置付けを明確にする。

 第三章では、図面や画像など多目的な認識を可能とする状態遷移モデルの枠組と、状態遷移ルールの作成を容易にするために構築した人間機械協調型のルール作成支援システムについて述べる。状態遷移モデルとは、認識プロセスを「状態の遷移」という形でモデル化するモデル化手法で、認識対象に依存しない汎用の枠組を提供する。この状態遷移モデルでは、認識基本要素(図面では線分、画像ではセグメントなど)を認識のステップを表す「状態」という形で管理し、その基本要素の状態を遷移させることで認識を実現する。これら状態の遷移はルールという形で記述でき、ボトムアップ解析とトップダウン解析の実行が可能で、効率的な認識を実現できる。ところで、認識ルールの作成に際し、全体の枠組は人間が容易に作成できるが、条件判断部のしきい値など微調整が必要な部分は試行錯誤で調整を行う必要があり、手間がかかるという問題があった。そこで、この問題を解決するため、認識システムの拡張として、グラフィカルインターフェースを用いた、ユーザとの対話によりルールの作成を可能とする人間機械協調型のルール作成支援システムを構築した。システムの枠組を図1に示す。このシステムは、ボトムアップルールの状況判断部の調整を行うもので、ルールの学習アルゴリズムとしては、数値とリスト構造を扱うことができる帰納的推論アルゴリズムを用いた。これは、Shapiroのモデル推論システムをもとにしている。ここでは、地図図面に適用し、システムの能力の評価を行い、その有効性を示した。

図1:ルール学習システムの枠組

 第四章では、映像フィルタリングや画像認識への利用が可能なデータベースを用いた画像のシーンの同定手法を提案した。典型的なシーンの画像の場合、画像の全体的雰囲気からシーンの内容が理解できることが少なくない。また、テレビ画像などの作為的に撮影された画像では、カメラ位置の制約や演出意図などの観点から、画面内でのオブジェクトの映る大きさや位置、そして、背景など画面構成がほぼ定まっていると考えられる。つまり、画面構成など画像の全体的特徴からシーンを同定できる可能性があるといえる。ここで、提案する手法はこのような考えに基づくもので、予め代表的なシーンの画像をデータベース化しておき、そのデータベース内の画像から対象画像との類似画像を検索することで、対象画像のシーンを同定しようとするものである。この手法の特徴は、シーン同定のための知識として、ルールなど体系化されたものでなく、事例である画像そのものを用いることができる点にある。つまり、必要な画像を集めデータベース化するだけで利用でき、また、データベース内の画像を追加、変更することで、容易に対象の変更や拡張が可能である。シーン同定の枠組を図2に示す。この手法の能力を検討するため、スポーツ画像を対象としたプロトタイプシステムを構築した。プロトタイプシステムでは、画像の類似評価のための特徴量として、画像から算出できる、色ヒストグラム、自己相関、同時生起行列などの値を用いた。類似の判定は、計算時間の短縮や類似判定特徴量の選択などの観点から、二段階に分けて行った。実験により、スポーツのような特徴的な画像においては、シーンを同定できる可能性を示した。シーンの同定が可能であれば、シーン情報を用いた画像のトップダウン解析や、シーンに応じた認識モデルの選択が可能となり、効果的な画像認識が実現できる。

図2:データベースを用いたシーン同定の枠組

 第五章では、同じ認識対象であっても、撮影時のカメラとの距離やカメラパラメータの違いにより、様々な映り方をする点に注目し、特に映る大きさの違いに柔軟に対応するため、階層型距離モデルの考え方を示した。階層型距離モデルとは、近景と遠景の場合で認識に用いる特徴が変わることに注目し、これら特徴の違いをうまく階層的にモデル化することで、対象の映る大きさに依存しない認識の実現を試みるものである。認識対象が大きく映っている場合には、その対象の局所的特徴が、また、小さく映っている場合には、その対象の全体的特徴や周囲状況が、その認識対象を表す特徴となる。ここでは、画像の認識で特に重要となる人間の認識を例にあげ、人間の映る大きさを階層的に近景、中景、遠景とモデル化し、そのモデルを統合的に利用することで、映る大きさの変化に柔軟に対応できる手法を検討した。階層型距離モデルによる画像認識の枠組を図3に示す。各モデルの統合は、Dempster&Shaferの確率理論を適用することで行った。また、ここでは、複数モデルの協調という意味で、同一場面の一連の画像群の認識における階層型距離モデルの利用について取り上げた。具体的には、近景、中景、遠景の各モデル間で知識の共有をはかり、共有された知識の認識への適用について検討を行った。

図3:階層型距離モデルによる画像認識の枠組

 第六章では、本研究のまとめを述べ、結論とする。

審査要旨

 本論文は、「目的や対象に応じたモデル化による画像認識手法に関する研究」と題し、近年重要性を増している画像・映像情報の認識技術に関して、利用側で要求される目的や対象に適応した、画像認識モデルを提案し、それに基づく一連の認識手法の研究についてまとめたものであり、6章から構成されている。

 第1章は「序論」であり、本研究の背景と目的について述べている。

 第2章は、「画像認識技術と対象のモデル化」と題し、従来のモデル化による画像認識手法について概説すると共に、問題点を分析している。画像認識技術に要求される要件やモデル化のあり方を目的や対象に応じて分類し、より高水準な認識を達成するにはこれらに適応したモデルを利用すべきであるという本研究の立場を明確にしている。

 第3章は「多目的な認識を可能とする状態遷移モデルとルール作成支援システム」と題し、図面や画像などに対し多目的な認識を可能とする状態遷移型モデルと、目的・対象に応じた状態遷移ルールの作成を実現する人間機械協調型のルール作成支援システムを提案している。この状態遷移モデルでは、認識基本要素を認識のステップを表わす「状態」という形で管理し、その基本要素の状態をルールの形でボトムアップ、トップダウンに遷移させることで認識を実現する。提案システムでは帰納的推論を用いたルールの学習アルゴリズムを開発し、対象適応型のルール作成支援を効率よく実行できる人間機械協調構成で実装している。地図等の図面に本方式を適用する実験を行ない、システムの能力の評価を行いその有効性を示している。

 第4章は、「画像データベースを用いたシーン/カットの同定手法」と題し、映像フィルタリングや映像構造化への応用を想定し、対象に依存した参照データベースを用いた画像のシーンの同定手法に基づくモデルベース画像認識方式を提案している。提案方式は予め代表的なシーンの画像をデータベース化しておき、そのデータベース内の画像から対象画像との類似画像を検索、その検索結果としてアクセスしたシーン情報に対応した認識モデルを利用しようという考えに基づいている。この方式はルールなど体系化されたものでなく、事例である画像そのものを用いることができる点に特徴があり、データベース内の画像を追加、変更することで、対象の変化に容易に対応することが可能である。スポーツ画像を対象としたプロトタイプシステムを構築し、評価実験を行なっている。類似画像検索では、色ヒストグラム、自己相関、同時生起確率などを用いた階層的特徴量を利用し、その有効性を実証している。

 第5章は、「撮像距離に依存しない認識を可能とする階層型距離モデル」と題し、撮影時のカメラとの距離やカメラパラメータの違いによる映り方の相違に適応した認識モデルとして、階層型距離モデルの考え方を提案している。階層型距離モデルでは、近景と中景、遠景の場合で被写体の認識に用いるべき特徴が変わることに注目し、これら特徴の違いを統合する形で階層的にモデル化することで、対象の映る大きさに依存しない認識の実現をはかっている。認識対象が大きく映っている場合には、その対象の局所的特徴が、また、小さく映っている場合には、その対象の全体的特徴や周囲状況が、その認識対象を表す特徴となる。これらの個別モデルの統合にはDempster&Shaferの確率理論を利用している。ついで、TV映像内の人間の認識を例にあげ、プロトタイプシステムを構築し、多くの実例による評価実験を行なってその有効性を実証している。

 第6章は、「結論」であり、本研究の成果が要約されている。

 以上、これを要するに、本論文は画像・映像認識システムにおいて、対象や目的に適応する形で認識モデルを提供し高水準の認識を達成する方式を提案し、対象依存モデルの学習支援に基づく画像認識方式、画像データベース検索を用いた認識方式、撮像距離に依存しない階層型認識方式の具体的方式を実現し、その有効性について実例をもって検証したもので、電子工学上貢献するところが少なくない。

 よって、本論文は、博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/1878