学位論文要旨



No 211862
著者(漢字) 川谷,隆彦
著者(英字)
著者(カナ) カワタニ,タカヒコ
標題(和) 手書き数字認識の高精度化に関する研究
標題(洋)
報告番号 211862
報告番号 乙11862
学位授与日 1994.07.14
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第11862号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 高木,幹雄
 東京大学 教授 羽鳥,光俊
 東京大学 教授 原島,博
 東京大学 教授 石塚,満
 東京大学 教授 廣瀬,啓吉
内容要旨

 本論文は、今後のヒューマンインタフェース技術において重要な位置を占めると考えられる文字認識技術について、手書き数字認識の高精度化の観点から行った研究をまとめたものである。従来は読取字種対応に認識手法が研究されてきたため、例えば手書き数字と手書き漢字とでは認識手法が全く異なっていた。本論文では手書き数字を対象としながらも手書き漢字、印刷漢字等の他の字種にも適用しうる汎用的な手法の実現を狙いとしている。

[研究の背景と目的]

 従来の手書き文字認識技術は、構造解析法とパタン整合法に大別される。構造解析法は、入力パタンから抽出される構造要素をもとに主として論理的な照合によって認識するものであり、現在の手書き数字、カナ、英字の認識の主流となっている。パタン整合法は、統計的に求められるパラメータ(参照ベクトル、重みベクトル、定数)を用い入力パタンから抽出される特徴ベクトルと各カテゴリの参照ベクトルとの距離もしくは類似度を求めて認識するものであり、手書き漢字認識の主流となっている。現状の手書き数字認識は、比較的丁寧に書かれた文字に対しては満足のいく水準であり、変形・雑音の付加された文字の正確な認識が課題となっているが、構造解析法による認識精度の向上は期待できない状況にある。一方、パタン整合法はこれまで各カテゴリの特徴分布を正確に記述することにより高精度化が図られてきたが、"文字変形に対して弱い"、"類似文字の弁別が難しい"などの問題点が指摘されてきた。また、手書き数字については、着目する文字のパタン情報以外の情報を積極的に利用しようとする試みはこれまでなされていなかった。本論文では、手書き数字認識の高精度化を達成するため、"他のカテゴリらしくなさ"を強調するという観点からパタン整合法の改良を図る学習形距離関数、及び個人毎の筆記特性、即ち筆記の個人性を抽出して認識への応用を図る後処理法を提案し、それぞれの有効性を実験的に検証する。

[従来の方法(位相構造化法)による認識]

 本論文第2章では、構造解析法に属する手法の中で、変形・雑音の吸収が容易な方法として位相構造化法を取り上げ、認識方式としての概要、達成水準を述べ、構造解析法に共通する問題点と限界を明らかにする。

 位相構造化法の特徴抽出系は位相特徴抽出と輪郭特徴抽出からなる。前者は背景上の各点からみた上下左右方向の文字線の有無の情報を組織的に積み上げて各点に広域的な情報を反映させる。又、後者では輪郭から得られる屈曲点を屈曲の度合、方向からコード化する。いずれも指定されたコードの計数により部分パタンの抽出が可能である。又、識別系では特徴を選択的に用いることにより雑音・変形の吸収を容易にしている。検討の結果を以下に要約する。

 (1)認識傾向としては比較的丁寧に書かれた文字に対しては問題なく認識することができ、雑音・変形の付加されたパタンの読取が課題である。

 (2)現在の水準以上に認識精度を向上させようとすると、未知パタンに対する不確実性、パタンの記述能力、特徴間の相関の無視、辞書作成の稼働などの問題がある。これらは位相構造化法のみならず構造解析法に共通する問題点でもある。これらの問題点のない認識系が望ましい系と云える。

[学習形距離関数]

 本論文第3章では、第2章で述べた望ましい認識系が具備すべき要件を充たす認識系実現のひとつの方法として距離関数の学習方法-LDA(Learning by Discriminant Analysis)法を提案するとともに、その性質、効果などについて論ずる。

 LDA法は、重み付きユークリッド距離、2次識別関数、修正2次識別関数を原距離関数とし、各カテゴリにおいて、着目カテゴリに属するパタンと、着目カテゴリにエラーした、もしくはエラーしそうになったパタン(ライバルパタン)との間で線形判別分析を施して得られる判別関数を原距離関数に重畳することによりパラメータを学習するものである。学習の効果として以下が期待できることが分かった。

 (1)学習後、参照ベクトルは、着目カテゴリとライバルパタンとを最適に分離する方向に移動する。

 (2)重み付きユークリッド距離に適用した場合には、特徴間に相関が存在する場合にも適切な形でカテゴリ境界を求めうる。

 (3)2次識別関数、修正2次識別関数に適用した場合には、特徴が正規分布に従わない時の悪影響が軽減されうる。

 また、本論文第4章では、手書き数字・カナなどのパタン整合法による認識に相応しい特徴抽出法を提案し、前章で提案されたLDA法について、その認識精度の到達点を明らかにするとともに、第2章で述べた位相構造化法と認識精度、処理量、所要メモリ量などに関する比較を行って本手法の有効性を示す。LDA法における原距離関数は原特徴を用いた重み付きユークリッド距離、主成分を特徴として用いる重み付きユークリッド距離、2次識別関数、及び修正2次識別関数の都合4通りである。主な結果を以下に要約する。

 (1)学習前後の正読率は修正2次識別関数の場合が最も高く、テストパタンに対し学習前99.53%、学習後99.68%である。また、誤読率の低減効果が最も高いのは原特徴を用いた重み付きユークリッド距離の場合であり、テストパタンに対し、約60%(学習前98.36%、学習後99.41%)である。また、認識精度を高めるうえで、各距離関数の値を加えて結合することが有効である。

 (2)原距離関数の種類に関係なく、学習前は正読でありながら所属カテゴリの判別関数の値が正となるパタン、あるいは所属カテゴリ以外のカテゴリの判別関数の値が負となるパタンが学習後誤読となるケースが多々見られ、正読率の向上を阻む要因となっている。

 (3)同じテストパタンに対し、位相構造化法では正読率99.05%、誤読率0.52%であり、本手法は認識精度において位相構造化法を凌駕している。また、処理量、メモリ量、プログラム規模、識別辞書作成の稼働の面においても位相構造化法を上回っており、本手法の実用的な意義は大きい。

[個人性の抽出と応用]

 本論文第5、6章では、判読し難い文字に遭遇した時には他の文字を見て判断するという人間の読取動作と類似の処理を文字認識においても実現することを狙いに、筆記個人性の抽出と認識への応用について論ずる。

 このため、先ず本論文第5章では、筆記個人性として、"人は同じカテゴリの文字は同じ様な字形で筆記する"、"人の書いた文字はカテゴリが異なっても字形には相関が存在する"ことを、文字認識で用いられる特徴の主成分を字形を表わすベクトルとして用いることにより定量的に検証した。この結果、同じ筆記者によって書かれた異なるカテゴリの文字の間の字形の相関は、人間の背の高さと足の裏の長さとの相関よりも大きいことなどが分かった。

 次いで、本論文第6章では、筆記特性の認識への応用として認識結果からの誤読文字の検出方法を提案し、効果を実験的に確認する。誤読文字の検出方法は、"誤読文字の字形と正読文字のそれとを比較した時に誤読文字にはなんらかの不自然さが存在する筈である"という考え方に基づいており、字形の組み合わせの不自然さを同じカテゴリに認識された文字同士の比較から求める方法と、異なるカテゴリに認識された文字同士の比較から求める方法とを具体的に提案した。実験の結果、

 (1)筆記個人性を認識に応用することにより、パタン情報のみを用いる場合には検出が困難と思われる誤読文字も検出することができ、認識結果を改善できる。

 (2)不自然さを単独に用いるよりも、不自然さと距離値を併用する方が誤読検出能力は高い。また、同じカテゴリに認識された文字同士の比較から不自然さを求める方が誤読検出能力は高い

 ことなどが明らかになった。

審査要旨

 本論文は「手書き数字認識の高精度化に関する研究」と題し,今後のヒューマンインタフェース技術において重要な位置を占めると考えられる文字認識技術について,手書き数字認識の高精度化の観点から行った一連の研究を纒めたもので,7章よりなっている。

 第1章は「序論」で,本研究の背景について述べ,本研究の目的を明らかにすると共に,本論文の構成について述べている。

 第2章「従来の構造解析法(位相構造化法)による認識」では,構造解析法に属する手法の中で,変形・雑音の吸収が容易な方法として位相構造化法を取上げ,認識方式としての概要,達成水準を述べ,構造解析法に共通する問題点と限界を明らかにしている。

 第3章「距離関数の学習方法」では,距離関数の新しい学習方法として判別分析を用いる-LDA(Learning by Discriminant Analysis)法-を提案し,その性質,効果等について論じている。LDA法は,重み付きユークリッド距離,2次識別関数,修正2次識別関数を原距離関数とし,各カテゴリにおいて,着目カテゴリに属するパタンと,着目カテゴリに誤った,もしくは誤りそうになったパタン(ライバルパタン)との間で線形判別分析を施して得られる判別関数を原距離関数に重畳することによりパラメータを学習する。学習の効果として,参照ベクトルは,着目カテゴリとライバルパタンとを最適に分離する方向に移動すること,重み付きユークリッド距離に適用した場合には,特徴間に相関が存在する場合にも適切な形でカテゴリ境界を求めうること,2次識別関数,修正2次識別関数に適用した場合には,特徴が正規分布に従わない時の悪影響が軽減されうることを明らかにしている。

 第4章「学習形距離関数による手書き数字認識」では,手書き数字・カナなどのパタン整合法による認識に相応しい特徴抽出法を提案し,前章で提案しているLDA法について,その認識精度の到達点を明らかにするとともに,第2章で述べている位相構造化法と認識精度,処理量,所要メモリ量などに関する比較を行い,提案手法の有効性を示している。

 第5章「筆記個人性の検証」では,判読し難い文字に遭遇した時には,他の文字を見て判断するという人間の読取動作と類似の処理を,文字認識においても実現することを目的として,筆記個人性の抽出と認識への応用について論じている。筆記個人性として,"人は同じカテゴリの文字は同じ様な字形で筆記する","人の書いた文字はカテゴリが異なっても字形には相関が存在する"ことを,定量的に検証している。

 第6章「筆記個人性の手書き数字認識への応用」では,筆記特性の認識への応用として,認識結果からの誤読文字の検出方法を提案し,効果を実験的に確認している。誤読文字の検出方法は,"誤読文字の字形と正読文字のそれとを比較した時に誤読文字にはなんらかの不自然さが存在する筈である"という考え方に基いており,字形の組み合わせの不自然さを同じカテゴリに認識された文字同士の比較から求める方法と,異なるカテゴリに認識された文字同士の比較から求める方法とを提案し,筆記個人性を認識に応用することにより,パタン情報のみを用いる場合には検出が困難と思われる誤読文字も検出することができ,認識結果を改善できること,不自然さを単独に用いるよりも,不自然さと距離値を併用する方が誤読検出能力は高いこと,同じカテゴリに認識された文字同士の比較から不自然さを求める方が誤読検出能力は高いことを,実験により明らかにしている。

 第7章は,「結論」であって本研究の成果を纒めている。

 以上これを要するに,本論文は手書き数字認識の高精度化を目的として,距離関数の新しい学習方法として判別分析を用いるLDA法を提案し,パタン整合法へ適用して有効性を検証し,更に,筆記の個人性を抽出して認識結果の改善を図る手法を提案して有効性を検証する等,手書き文字認識技術の進展に寄与するところが多大であり,電気・電子工学に貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク