学位論文要旨



No 111149
著者(漢字) 魯,偉
著者(英字)
著者(カナ) ロ,イ
標題(和) 図面画像理解の多目的化に関する研究
標題(洋) A Study on General Purpose Understanding System for Drawings
報告番号 111149
報告番号 甲11149
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3393号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 坂内,正夫
 東京大学 教授 高木,幹雄
 東京大学 教授 斉藤,忠夫
 東京大学 教授 濱田,喬
 東京大学 助教授 原島,博
 東京大学 助教授 喜連川,優
内容要旨

 CAD/CAM等の飛躍的な進歩によって既存の紙面上に描かれている各種の図面をコンピュータデータベース化する需要が高まっている。図面画像理解はこのデータベース化に不可欠の技術であり、画像処理、パターン認識、コンピュータビジョン等の分野の統合によって実現されている。その過程の容易な実現、結果の信頼性の高度化及び自動処理部でリジェクトされた部分の処理の効率化は重要な課題である。

 第一章では、本研究の背景及び論文の構成について述べる。

 第二章では、図面入力における最近の動向及び問題点について述べる。

 第三章では認識過程の容易で効率的な構築を可能にするために、認識システムを推論エンジンとそれを駆動する知識ベースに切り分けるシステム構成法を提案する。推論エンジンは分散・協調型推論をサポートできる黒板モデルを採用する。知識ベースはモジュール性と階層性を重視したプロダクションルールベースを採用する。プロダクションルールはその目的の一般性、再利用性等によってその構成が決められ、故にモジュール性の高い構造にすることが実現できる。また、ルール全体はそれぞれのルールの使用目的によって階層的にグルーピングされる。各グループはなるべく他のグループにを影響しないような処理を行なう。このような戦略によってプロトタイプシステムを構成し、幾つか典型的な図面の認識処理の実験を行なった。実験結果では、市街図面、地下配管図面、機械設計図面などを認識するためのシステムの構築、改良・拡張等は容易に実現できることが確認できた。既存知識ベースの再利用率は50%になっている。

 第四章では対話処理の効率化に関する研究である。図面入力システムの最終目的は自動的に図面に描かれている情報を需要に従って、抽出し、他のアプリケーションの入力データに変換することである。しかし、現在の技術では、完全自動化処理は一般的には不可能である。自動処理過程では図形成分のノイズ、変形等によって、処理し切れないオブジェクトはやはり人手によって完成しなければならない。一方、人手による対話処理の作業は膨大な時間がかかり、繰り返し操作も多いため、オペレータへの負担が大きい上に、作業の信頼性も不安定である。そのため、効率的な対話型認識処理を提案し、典型的な図面を用いてその有効性の検証を行。対話型認識処理とは確信度の高い対象に対して、厳しい条件を有するルールによって自動的に処理し、誤りの発生しやすい個所に対して、より緩めた条件によって複数の可能な認識結果を提案し、その最終的な判断ユーザに委ねる方式である。この方式では提案の正解率が高い場合に、対話処理は、殆んどオペレータのマウスクリックだけになる。ゆえに、オペレータへの負担が低減されると同時に、処理の効率も大きく改善される。また、対話処理時に処理されたオブジェクト及びその認識結果を利用して、残りのオブジェクトを処理するための提案にフィードバックし、提案の正解率を改善する。さらに、対象オブジェクトの処理順番をプランニングすることによって、学習の早い収束を実現する手法を提案する。この手法によると、先に既知のオブジェクトと一番違うものを次に処理するオブジェクトとする。これで、処理対象に相似するパターンが存在する場合に、似たオブジェクトに対して同じ処理を繰り返さなくてもよくなる。また、プランニング手法をニューロンネットワーク(NN)のトレーニングへ応用し、教師データより代表的なデータを選択し、最適なNNの構造を選択を行なう。一番良い学習結果が得られるNN構造が決定された時だけに、全教師データによる詳細なトレーニングを行なう必要がある。これで従来最適なNN構造を選択するための多大な試行錯誤用の時間を短縮することができた。

 上記の手法を市街図地図図面にある対話処理しなければならないオブジェクトに応用した。対話処理時の提案正解率を100個のオブジェクトを処理する時に行なったした正しい提案の数とする時に、いずれの手法でも既存の固定パラメータ手法の70%より、正解率の平均は90%に達している。また、プランニングによって正解率が安定に成長していき、約半分のデータが処理された時にいつも98%以上に維持されている。重複パターンが多い時に、全データの四分の一以下を処理するだけで、残りのデータに対する提案率はすべて100%であることが確認できた。最後に、プランニング手法をNNの構造決定に応用する場合に、残りのデータに対する認識率はいつも代表データのより高いことも実験によって確認でき、手法の有効性を示す。

 第五章では理解の基礎となる認識ルールの獲得の効率化のために、機械学習の手法の応用及び改良を行なう。一般的には、認識ルールは試行錯誤によって限られた環境で作成されるので、手間がかかる上に、実際の応用では反例の発生も避けられない。故に認識ルールの改良或いは拡張は必要である。その過程を効率化するために、機械学習の手法導入し、認識対象の例及び分類を教師例としてシステムに教示し、システムは自動的に対応するルールを作成する。教示された教師データは認識システムの一部とする。実際の認識時に反例が発生する場合に、それを教師データベースに追加し、認識ルールを生成し直す。これで、知識ベースの更新も容易になる。認識対象は属性値によって記述される時に、その認識ルールは決定木構成によって生成する手法がある。この手法では、分類対象の属性によって、教師データの集合を再帰的に子集合に分割する。分割の終了条件は子集合に同一クラスに属するデータしかないか、規定された木の深さに達したかである。分割結果はノードに属性のテスト、葉ノードに分類クラスを有する分類用決定木である。この手法は根中の分類、故障診断、医療診断等の実世界の学習問題に応用され、良好な結果が得られている。但し、対象データの数が多いときに、また属性は実数である時に、最適な分割を行なうためのコストが顕著に増加する問題点がある。これに対して、改良手法は提案されているが、図形オブジェクトの属性は殆んど実数である上に、一様に近い分布を有するのが多いので、その改善はやはり不十分である。ここで、図形認識に応用するために、最適な分割を評価する手法の改良を提案し、より高速な決定木の構成を実現する。具体的に、以下のヒューリスティックによって、最適分割点の候補を選択する。

 まず、各クラスに属する教師例の属性分布範囲を求め、その結果を

 

 とする(iは属性番号)。その内、昇順でソートした分布範囲の境界集合にある[,]のような隣接境界でなす領域を「最適分割領域」と定義する。このような定義に基づいて最適な分割点候補を選択するヒューリスティックは以下の通りになる:

 Huristic 1:[V1,mink],[maxk,V2]の領域の中点を分割点候補である。但し、V1,V2は教師データで、V1<mink,V2>maxk、且つ上記の領域に他のデータが存在しない。

 Huristic 2:最適分割領域が存在する場合に、候補点はその領域にあるものに限る。

 上記のヒューリスティックを満たす候補点が存在しない時に、Fayyad氏が提案したヒューリスティック、即ち属性値を昇順でソートして、違うクラスに属するするデータ間の境界を分割候補点とする。但し、領域を二つのサブ領域に分割し、分割点の最適性を評価するのはQunilan氏が提案したクラス分割エントロピーE(A,T;S)のによって行なう。ここで、

 

 Aは属性で、Tは分割点で、Sは分割対象のデータ集合で、S1とS2はそれぞれTによって分割した時にTより小さいと大きいデータの集合で、P(Ci,S)は集合SにあるクラスCiに属するデータの割合である。また、データの属性値は一様分布を有する時に、上記のHuristic 1はクラス分割エントロピーが最小となる分割を保証することの証明をも行なった。

 提案手法を市街図図面にあるシンボルの認識ルールの獲得適用し、良好な結果が得られた。提案手法では候補点の数がFayyad氏の手法の四分の一から六分の一なっている。ルール獲得は平均でやく8回の試行錯誤で、4940のサンプルデータから150個位の教師データが得られて、全てのデータを正しく認識できるルールを生成できた。全ての操作はマウスクリックとクラス名の選択のみによって行なわれる。

 第六章では、本研究において得られたことをまとめて、結論とする。

審査要旨

 本論文は「A Study on General Purpose Understanding System for Drawings(図面画像理解の多目的化に関する研究)」と題し,マルチメディアデータベースの重要な柱である図面,地図のデータベースへの入力を,画像理解技術を用いて自動化する際の,対象図面種に対する多目的化を実現するための一連の研究をまとめたものであり,英文6章から構成されている.

 第1章「Introduction」は序論であり,研究の背景,目的,意義並びに本論文の構成概要などがまとめられている.

 第2章「Previous Works」では,本論文に関する図面地図自動入力方式や知識駆動型の多くの分野での従来の研究や動向を体系化して述べると共に,多目的化を実現する図面画像理解システムの必要性と位置付けとを明らかにしている.

 第3章「Knowledge Driven Understanding System」では,図面画像認識の多目的化を実現する第一の方式として,図面画像を先ず輪郭線のベクトルデータに変換し,そのデータ空間上での図形演算によって図面認識を行ない,更にその認識システムを推論エンジンとそれを駆動する知識ベースに分割する形の方式を開発している.具体的には,推論エンジンとして黒板システムを知識ベースとしてプロダクションシステムを有機的に結合した方式等を提示し,この方式により市街図面,地下配管図面,各種の機械設計図面などの多種の図面認識システムを実装している.実験により認識率や知識再利用率などが従来に比し高いシステムであることなど,方式の有効性を実証している.

 第4章「Interactive Recognition System With Learning Ability」では,図面認識の多目的化のための第2の方式として学習機能を有する効率的な対話型認識システムを提案している.対話処理時のオブジェクトの認織結果をデータベースに学習させ,その後の認識処理にフィードバックし,更にオブジェクトの処理順をスケジューリングすることによって対話認識の効率を向上させている.1/25000の国土基本図を対象にした実証実験により,従来の固定パラメタによる対話方式に比し,認識正解率が大幅に向上し,対話性能も大幅に改善されることなどを示している.

 第5章「Rule Acquisition for Understanding of Drawings」では,図面認識の基礎となるルール獲得の効率化のための新しい方式を提案している.即ち認識ルール生成に有用な決定木構成を,最適な分割を実現するヒューリスティックを用いることにより適応的に実行する方式を創案し,その具体的アルゴリズムを提示すると共に,ルール獲得の効率を大幅に向上できることを理論的に示している.更に市街地図のシンボル認識ルールの獲得における実証実験では,従来方式の4〜6倍の効率向上を実現できることを示している.

 第6章「Conclusion」では,本研究の成果が要約されている.

 以上これを要するに,本論文はマルチメディアデータベースの入力に重要な図面画像認識の自動化手法において,対象図面種等に対する多目的化を実現する実用性の高い方式を提案し,実際の図面においてその有効性を実証したもので,電子工学上貢献するところが少なくない.

 よって著者は東京大学大学院工学系研究科電子工学専攻における博士の学位論文審査に合格したものと認められる.

UTokyo Repositoryリンク http://hdl.handle.net/2261/1869