学位論文要旨



No 111887
著者(漢字) 呉,煒
著者(英字)
著者(カナ) ゴ,イ
標題(和) 汎用性を目指した図面画像理解システムの構成に関する研究
標題(洋)
報告番号 111887
報告番号 甲11887
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3685号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
 東京大学 教授 武市,正人
 東京大学 助教授 喜連川,優
内容要旨

 近年、インターネットの急速な発展に従って、人類は日常生活で膨大な情報に直面している。これらの情報のうち、図面・画像メディアは、その情報伝達の有効性という特質によって大量に使われている。また、社会生産分野においては、今までに蓄えられてきた大量の紙ベースの設計図面を、コンピュータを用いたCAD/CAMシステムに有効に利用する需要が高まって来ている。これらの図面・画像データをコンピュータによって自動管理し、処理するために、図面・画像の中に含まれているさまざまな情報を抽出し、コンピュータが処理できる形式に変換しなければならない。図面・画像理解はこの情報の自動抽出に不可欠の技術である。

 上記の問題を解決しようとする本研究では、汎用性と多目的性を目指したオブジェクト指向型図面画像理解システム○○-Mudamsの枠組を提案し、実験を通してその有効性を検証する。本論文は10章により構成されている。

 第1章は「序論」であり、本研究の目的と背景、本論文の構成について述べている。

 第2章の「これまでの研究」では、従来の研究と、存在している問題点及び本研究の位置付けについて述べる。

 第3章の「汎用図面画像理解システム○○-Mudamsの構成」では、本研究で提案された図面画像理解システム○○-Mudamsの概要と構成について述べる。

 第4章「モデルの構成と記述」では、○○-Mudamsに用いられるモデルの記述手法について述べる。モデルは認識対象の構成、形状特徴など静的な特徴と、特徴マッチング動作及びマッチング制御のような動的な機能の双方をオブジェクト指向手法を用いて表現している。モデルの記述には、抽象属性に基づく関係記述を用いており、記述の構造化や、入力データの雑音を隠蔽し、吸収することが可能である。マッチングという動的な機能を記述する「マッチング木」は、認識対象のマッチング過程中の各動作の順序関係を木構造を用いた記述法によって表現され、マッチング過程を制御する。「マッチング木」の導入によって、認識対象の特徴と雑音環境に応じて適切なマッチング手法をより容易に表現することができる。

 第5章「モデルによる認識機構の駆動」では、○○-Mudamsの推論機構と整合性管理について述べる。認識対象の中で、最も代表的な構成部品をマッチングの「点火部品」として宣言され、「点火部品」の発見によって認識対象のマッチングが点火される。マッチング木の中に点火部品に対応するノードからはじめ、左深さ優先の順序でマッチング木を辿りながらノードにおかれるマッチング機能を実行する。マッチングメソッドによって複数の結果が得られた場合には、システムは結果をスタックに入れ、マッチング過程の終了時、あるいはマッチングが途中で失敗した場合に、バックトラックによって、次の候補の認識結果の探索を行なう。ハッチングなどのような構成部品数が特定できない認識対象に対する再帰的な認識過程もバックトラックによって実現できる。

 マッチング木は認識対象の局所的な特性を示している。大局的な整合性維持は推論エンジンから独立した整合性管理モジュールによって管理される。整合性管理モジュールはTMS(Truth Maintenance System)の考え方に基づいて、推論機構から与えられた認識結果間の推論依存関係を管理している。関連グラフに従って、関連に基づくバックトラック(Dependency-Directed-Backtrack)を用いて整合的な解空間を探索する。元来、TMSは非単調推論の一つの方法論であるが、○○-Mudamsでは、図面理解という目的に応じて、依存関係の強さや認識結果の確信度などの情報を利用したバックトラックの制御ルールを用いて、図面認識に適合した整合的な認識結果の解空間を探索に利用している。

 第6章「雑音の隠蔽と吸収」では、○○-Mudamsの雑音対応手法について述べる。ある雑音の状況に対応するマッチング手順を雑音モデルとして一つのマッチング木として記述し、それによって雑音の処理を行なう。各々一つの雑音モデルは雑音に対応するため不完全なマッチング方法が許されている。雑音発生状況に対応するマッチング木の追加によって、雑音が含まれる環境の中から認識対象を認識することが可能になる。また、認識対象に対する抽象属性の記述によって、認識対象の静的な特性を雑音に依らず一様に表現することができ、雑音がモデルの記述オブジェクトによって隠蔽される。

 第7章「図面理解への適用」では、複数種類の図面に対して、認識実験と考察を行なう。

 機械設計図面を対象にして、矢印、寸法線及びハッチングの認識実験を行なった。矢印のモデルは、矢印シンボルの主要な特徴だけに注目し、芯線化処理によって生じた歪みを意識しない記述ができる。このモデルを用いて図面中に含まれる136個の矢印シンボルのうち、歪んだものを含む122個が正しく認識され、誤って矢印と認識された結果は存在していなかった。認識できない矢印シンボルは、芯線化雑音の影響で特徴が完全に失われたものである。寸法線認識の実験では、寸法線の構造(内寸法、外寸法など)によって複数通りのマッチング木の実装と適用を通して、(a)寸法線のモデル記述において、構成部品となる矢印は雑音に依らず一様に記述できることと、(b)寸法線の共通な部分的な構造記述と構成部品のモデル記述を再利用することができることを示した。図面中の寸法線がすべて正しく認識できた。

 ハッチング認識のモデルを機械設計図面と道路地図に適用して、正しい認識結果が得られた。この実験によって、ある構造の一定回数の繰り返しのような構造を持つ認識対象の認識に対して、その繰り返す部分的な構造部分だけをモデルに記述し、マッチング制御のバックトラック機能の利用によってマッチング制御の表現が可能ということを検証した。

 配管図面への適用では、認識の目的に応じて、複雑な配管シンボルの詳細部分をシンボルのモデルによって隠蔽する。配管認識過程においては、シンボルを円と抽象化して記述することによって、配管の認識過程を大幅に簡単化した。

 道路地図を対象にした実験では、地図中の建物とさまざまな境界シンボルを認識した。道路地図図面を芯線化する過程で、変形と属性の誤りという雑音が大量に生じた。○○-Mudamsでは、それぞれのシンボルに対して、輪郭形状を認識する「理想モデル」に加えて、近傍関係を利用した雑音モデルと、属性の誤り雑音に対応する雑音モデルの追加によって認識率を大幅に向上した。また、地図中の境界線を「同質なシンボルから構成された折れ線」と抽象化して記述することによって、境界線の追跡に折れ線モデルがそのままに利用できる。

 第8章「ユーザ指定の認識に基づく画像検索」では、画像検索の応用に対して、概念レベルでの検索に用いるキーワードを画像から抽出することについて述べる。検索に用いる概念に対する構造化表現は、認識対象のモデル表現と同様に記述することができる。

 1.高レベルの概念を複数のサブ概念に分解し、階層表現することができる。

 2.サブ概念の間にロジカルな関係が存在している。

 3.分解できないサブ概念は画像中の実体に対応する。この実体は、これまで述べてきた画像認識の認識対象である。

 概念の木構造を動的な機能動作として考えると、マッチング木となる。

 ○○-Mudamsは入力画像から得られたカラーセグメント画像と、エッジ画像の双方を使用して、検索しようとする概念を抽出する。モデルの抽象記述によって、これらの異なるデータから抽出した概念情報を一様に扱うことが可能になる。

 第9章「認識モデル自動獲得の支援」では、機械学習手法によって認識対象の輪郭形状マッチングのためのパラメータを自動的に獲得することについて述べる。認識対象の輪郭形状をマッチングするマッチング木の設計には、形状パラメータを与える必要がある。複雑な輪郭形状の形状パラメータは、機械学習の手法ID3を利用してサンプル図面から自動的に取得する。但し、対象データの数が多い時、また属性は実数である時に、最適な分割を行なうためのコストが顕著に増加する問題点がある。ここで、図形認識に応用するために、最適な分割を評価する手法の改良を提案した。提案手法では最適な分割点の候補数がFayyadの手法の4分の1から6分の1になっている。

 第10章は結論であり、本論文のまとめを行なう。

 以上これを要するに、本論文は汎用性を目指した図面・画像理解システムを実現するために、認識対象に対して、抽象記述に基づいた能動的なモデルの記述手法を提案した。異種図面と画像への適用を通して、システムの有効性を検証した。

審査要旨

 本論文は「汎用性を目指した図面画像理解システムの構成に関する研究」と題し、多目的性を有する図面や画像メディアの自動入力を目指したオブジェクト指向型図面画像理解システムの枠組みを提案し、そのプロトタイブの実装、実験による評価などの一連の研究をまとめたものであって10章により構成されている。

 第1章「序論」では、マルチメディアシステムの進展に伴い、図面や画像メディアの内容の自動入力のニーズが高まっていることなど本研究の背景と目的を明らかにしている。

 第2章「これまでの研究」では、従来の研究と、存在している問題点及び本研究の位置付けについて述べている。

 第3章は「汎用図面画像理解システム○○-Mudamsの構成」と題し、本研究で提案された図面画像理解システム○○-Mudamsの概要と構成について述べている。即ち、対象図面や画像のルールや認識方法をオブジェクト指向型のモデルで記述すれば、システムのもつ独自の駆動方式で多様な対象の認識が実行されるシステムの構造を示している。

 第4章は「モデルの構成と記述」と題し、○○-Mudamsに用いられるモデルの記述手法について述べている。モデルは認識対象の構成、形状特徴など静的な特徴と、特徴マッチング動作及びマッチング制御のような動的な機能の双方をオブジェクト指向手法を用いて表現している。モデルの記述には、抽象属性に基づく関係記述を用いており、多様な対象の記述の構造化や、入力データの雑音を吸収することが可能であることを明らかにしている。

 第5章は「モデルによる認識機構の駆動」と題し、○○-Mudamsの推論機構と整合性管理について述べている。認識の動的な過程を制御するために「マッチング木」を導入し、これを辿りながら認識のための推論機構が実行される。認識の大局的な整合性維持は推論エンジンから独立した整合性管理モジュールによって管理される。このモジュールはTMS(Truth Maintenance System)の考え方に基づいて作成されており、与えられた認識結果間の推論依存関係を管理していることを述べている。

 第6章は「雑音の隠蔽と吸収」と題し、○○-Mudamsの多目的性のある認識能力の1つの特徴として、図面画像に現われる雑音への対応を可能とする方式を述べている。雑音の状況に対応するマッチング手順を雑音モデルとして記述し、その記述の追加によって各種の雑音に対応できることを明らかにしている。

 第7章は「図面理解への適用」と題し、多種類の図面に対して、提案システムによる認識実験と考察を行なっている。

 先ず、多様な図面種に対する評価として、各種の機械設計図、道路地図、国土基本図、施設管理図を対象として実験を行ない、モデルの入れ替えによりそれぞれに高い認識能力をもつシステムが実現できることを示している。次に雑音の吸収に対する評価を行ない、第6章に述べた雑音モデルを用いて図面自動認識の大きな課題である雑音対策がほぼ満足のいく水準まで可能であることを示している。

 第8章は「ユーザ指定の認識に基づく画像検索」と題し、第3章ないし第5章で提案した方式が自然画像の認識と検索にも適用可能であることを述べている。即ち、ユーザの所望する内容を認識モデルとして与え、対象画像がそれに合致するかを自動的に評価できる方式を○○-Mudamsをベースに実装し、建物画像群に適用して所期の動作を確認している。

 第9章は「認識モデル自動獲得の支援」と題し、本論文の自動認識方式の基盤となった学習によるマッチング木の特徴パラメタの選定方式の効率化方式を提案している。従来方式に比し、数倍の能率向上が実現されることを示している。

 第10章は「結論」であり、本論文のまとめを行なっている。

 以上これを要するに、本論文はマルチメディアデータベース構築の基礎である図面・画像の自動認識を対象に、抽象記述に基づく多様な対象の認識方法のモデル化機構と高能率な推論・整合性管理機構をもつ多目的な図面・画像理解システムを提案・実装し、評価実験を通じてその有効性を明らかにしたもので、情報工学の発展に寄与するところが大きい。

 よって、本論文は博士(工学)の学位請求論文として合格に認められる。

UTokyo Repositoryリンク