学位論文要旨詳細

学位論文要旨


No		213167
著者（漢字）		亀山,博史
著者（英字）
著者（カナ）		カメヤマ,ヒロフミ
標題（和）		光学式手書き文字認識の実用化に関する研究
標題（洋）
報告番号		213167
報告番号		乙13167
学位授与日		1997.01.30
学位種別		論文博士
学位種類		博士(工学)
学位記番号		第13167号
研究科		工学系研究科
専攻		計数工学専攻
論文審査委員		主査：　東京大学　教授　有本,卓　東京大学　教授　藤村,貞夫　東京大学　教授　杉原,厚吉　東京大学　助教授　出口,光一郎　東京大学　助教授　山本,博資
内容要旨		文字による情報の記録・伝達を紙媒体を用いて行うことは,人間にとって本質的であり,その取り扱いは極めて容易である.それゆえ,情報の記録・伝達の電子化が急速に進展してきている今日でも,金融業,流通業,保険業,郵便サービス等の事務処理の現場では,依然として大量のデータが紙媒体を用いて記録・伝達されている.これらの文字データを効率的に計算機に入力する手段として,光学式文字認識(Optical Character Recognition [OCR])技術の利用に対するニーズは強いものがある.しかし,現在のOCR技術では実際の対象を読み取る能力はまだ十分なレベルには達しておらず,事務処理におけるOCRの実用化はスムーズに進展していない.本研究では手書きOCRの実用化における二つの問題点の解決に取り組む. 　文字の認識処理は文字の記入された画像から文字を1つ1つに分離する切り出し処理と,切り出された各々の文字を認識する個別文字の認識処理とによって達成される.個別文字認識については,半世紀におよぶ文字認識研究の結果,高い認識能力を持った手法が開発されている.ところが,現場でのOCR装置の認識率の良し悪しは,筆記具や用紙の種類,書き手の地域性,あるいは観測系の方式や個体差に依存する.そのためメーカーの開発者は読み取りの対象とするサンプルに従って識別辞書の再構成を行って対応している.したがって,識別辞書の構成を短時間で効率よく行うことが重要な課題となっている.本研究では読み取り対象のサンプルに従って識別辞書を逐次再構成して対象の変動に対応することをめざし,最近傍識別法を利用した識別手法の開発を行う.このことが第一の問題点に対する取り組みである. 　最近傍識別法は分布未知のパターンに対してベイズ識別に近い高い識別能力を得ることが知られている.また読み取り対象から抽出された標本パターンの特徴量をそのまま辞書に格納して参照パターンとして使用することが可能である.ところが,参照パターンが増加するにつれ記憶容量と探索時間が増大するという難点がある.従来,ボロノイ線図を応用して識別に有用でないパターンを参照パターンから削除する方法や,訓練サンプルを用いて参照パターンを繰返し修正することによって,参照パターンの少数化を図る手法が提案されている.これらの手法は識別部の設計に大きな計算時間を要する.本論文では,K-M木とよばれる2分木を辞書のデータ構造として用い,木内の探索における距離計算の回数を削減する手法を提案する.K-M木へデータを格納する処理時間はデータ数Nに対して(NlogN)と小さく,しかもデータを木へ逐次に追加・格納することが可能である.これらの特長により,多様な読み取り対象に対応して高性能な識別系を迅速に設計できることが期待される.K-M木の従来の探索アルゴリズムでは,三角不等式に基づいて探索範囲を狭化することによって距離計算の回数を削減している.この探索では,データの次元数が増加してくると距離計算の削減効果は低下してくるため,文字認識で扱う数十〜数百という高い次元数では十分に高速化が達成できない.筆者らの提案法では,従来の探索範囲を狭化する条件にパラメーターを導入することにより,探索範囲をより狭化できるようにして高速化を達成する.パラメーターの導入によって,最近傍点が探索される保証はなくなるが,このことによる識別能力への影響と高速化の改善効果について,筆記条件あるいは字種(数字,英大文字およびカタカナ)の異なる4つの手書き文字のサンプルを用いた実験を行って検討する.実験では,高いカテゴリー分離能力を持つことが知られている輪郭の方向成分を反映した100次元の特徴量を用いる.適切にパラメーターを設定することによって,高い正読率を保ちながら大幅な高速化が達成できることを実験により示す.また,このようなパラメーターの設定方法についても検討する. 　文字認識の実用化がスムーズに進展しない第二の問題点として,文字切り出しの難しさがある.現実の読み取り対象から得られる画像には,文字以外に枠線等の背景が混在し,各々の文字は隣接する文字および背景との間で接触を生じる.従来の文字認識では認識を行う前に文字が個々に分離されていることを前提としている.そのため,現実の手書き文字に従来の文字認識手法を適用するためには,一つの連結した黒画素領域のその部分が一つの文字に対応するのか,あるいは枠線等の背景なのか,を解析して個々の文字に分解する技術の開発が必要となる.本研究では,米国で普及しているパーソナルチェック(Personal Check [PC])に手書きされたドル金額を認識するエキスパートシステムを開発する.ドル金額の表記の仕方は多様で,日本円のように数字の横書きだけでなく"下線","100"および"××"等の記号がセントの桁を表す数字の下部やその周辺に書かれているものが混在する.しかしPCのドル金額の記入欄には文字を1つ1つに分離する仕切りがなく,個人個人が自由に手書きする.そのため文字の配置は様々に変形し,また文字どうしの接触が頻繁に起こる.従来,文字を含む手書き日本語文字列から文字認識の結果を利用して個々に文字を切り出す手法や,互いに左右に接触した手書き数字を個々に分解して認識する手法がいくつか提案されている.多様な文字配置が混在するPCの金額欄の認識では,文字を個々に分解して認識する前に,ドル金額欄の画像の構造を解析する技術も必要となる.印刷文書に対しては,対象に依存した知識を利用して文書の構造を解析する例が多く見られる.しかし手書きの場合では,文字の大きさや文字間ピッチ等の変動に加えて文字間の接触による黒画素の連結構造の変化を考慮しなければならない.本研究では,PCの金額欄の線画からブロックとよぶ連結領域を構成し,文字の配置パターンに関する知識を積極的に活用して線画の連結構造を解析するエキスパートシステムを開発する.この解析ではドル金額の表記の多様性と手書きの不明確さに対処するため,仮説-検証のアプローチを採る.最初に仮説段階として,ブロック個々のあるいはブロック間の断片的な特徴から配置のタイプが何であるかを仮説する.続いて検証段階として,配置タイプの仮説に基づいて金額欄を構成する全部のブロックの属性を明確にしながら仮説の妥当性を検証する.本システムは,以上のようにブロックの解析を行った後,各々のブロックの属性に応じた特有な処理によって横方向にあるいは縦方向にも接触した文字を個々に分解して認識する.このようにしてPCのドル金額の認識を行うシステムについて述べる. 　文字間の接触だけでなく,画像が低品位で文字線の途切れおよびノイズが多く発生している場合,文字の切り出しは極めて複雑になる.この問題を前述したようなプロダクションシステムによって実現された仮説-検証の枠組みで扱おうとしても,システムが複雑になり破綻することが予想される.この原因は,正確な文字の切り出しを必要とする従来の個別文字認識手法を用いていることにある.したがって,文字線の途切れおよびノイズを含む画像に対しても耐力のある手書き文字の認識手法を開発することが重要となる. 　低品位な画像の解析ではモデルマッチングによるアプローチが有効であり,従来このアプローチを採った文字認識手法がいくつか開発されている.文字のストロークを線分の系列によってモデル化し,モデルと入力画像とのDP(Dymanic Prograrming)マッチングによって手書き文字を認識する手法や,最小化原理に基づく書字モデルを利用した筆記体の英単語の認識手法が提案されている.前者では,ストロークを折れ線によって正確に近似するために個々の線分を短くして線分数を増加させる必要があり,モデルのコンパクト性に問題がある.後者では,1つの文字は3つの代表点で形状が規定されるスプライン曲線の連結によって合成されるものとし,各スプライン曲線にアフィン変換を施して入力パターンとのマッチングが行われる.アフィン変換はスプライン曲線の3つ代表点と入力パターンの特徴点との対応づけによって決定される.しかし,対応づけによって決定されるアフィン変換は最適なものではないためマッチングの精度が低く,また文字線が途切れた場合には特徴点が消失してアフィン変換を求めることすらできなくなる.本研究では,このような点を改善した認識手法を提案する.すなわち,手書きのストロークが折り返し点を経由点とするスプライン曲線のあてはめによってよく近似されることを実験により示した上で,このことを利用した手書き文字の認識手法を提案する.認識の方法はまず,モデルの代表点であるスプライン曲線の経由点と画像の特徴点との対応づけを行う.次に,経由点におけるスプライン曲線のパラメーターを変動させることによってスプライン曲線から入力画像への重なり度合いが極大となるようなマッチングを行う.文字の認識はマッチングされたスプライン曲線と画像の一致度に基づいて行われる.本認識手法おいて,スプライン曲線の経由点と画像の特徴点との対応づけが,従来のパターンマッチング法における位置合わせおよび大きさの正規化処理に相当するため,正確な切り出し処理を必要としない.しかも,特徴点の対応づけにおいて,文字線の途切れやひげなどのノイズの発生による特徴点の変化を考慮した対応づけの規則を設けて,対応のもれを防ぐようにしている.この規則を適用することによって経由点は折り返し点からずれが生じるが,スプライン曲線のあてはめによって安定したマッチングが達成される.以上のような提案手法の有効性を,途切れやノイズを含む手書き数字を対象とした認識実験により示す.また,前処理として文字の位置および大きさの正規化を必要としないことを利用して,本手法によって連続数字の文字切り出しと認識が同時に行えることも示す.
審査要旨		紙の上に書かれた文字をイメージスキャナーによってコンピュータが扱える形式にして取り込み、自動認識することを光学式文字認識(Optical Character Recognition、以下ではOCRと略記)といい、1960年前後から現在に至るまで膨大な研究成果があり、様々なOCR装置が開発されている.しかし、自由に筆記された手書き文字認識の実用化に関しては、いくつかの問題点が未解決のまま残されており、文字の読み取りの自動化は遅々として進んでいないのが現状である.本研究は、そのような問題点として、1)OCR装置の読み取り性能が筆記具や用紙の種類、個人差、観測系、等の対象に大きく依存していること、2)文字の切り出しの困難さ、の二つを取り上げ、それぞれについて新たな基本的なアイデアに基づく解決方法を提案するとともに、今までになかったタイプの手書き文字OCR装置の実用化への道を開いたものである. 　本論文は「光学式手書き文字認識の実用化に関する研究」と題し、全部で5章から構成される.第1章は文字認識技術の現状を述べ、現今のOCRの問題点を指摘している.第2章は、個別文字認識に関して最も有効であると考えられる読み取り対象のサンプルに基づいた識別辞書の逐次的構成と最近傍識別を利用した文字認識法を提案している.そのため、K-M(Kalantari-McDonald)木と呼ばれる2分木を辞書のデータ構造とし、任意個数の参照パターンを逐次的に格納しながら辞書を構成し、K-M木上の探索によって最近傍識別を行う方法を検討している.このとき、K-M木上の探索中の各ノードにおける探索範囲が、特徴空間の次元が高くなるとき急速に拡大し、次第に全数探索に近くなってこの方法が実用にならなくなることが指摘されていた.ここでは、三角不等式に基づいた探索範囲を狭める新たなルールを見い出し、特徴空間の次元がかなり高く(たとえば100次元から200次元)なっても、認識率を劣化させないで最近傍識別が高速化できることを発見している.そして、手書き郵便番号や仮名文字のデータベースを用いた実験により、提案の方法の認識率および認識時間がともに高い水準にあることを確認している. 　第3章はパーソナルチェックに手書きされたドル金額の読み取りのために開発したエキスパートシステムを述べている.ドルとセントの間を区別をする記法等のように、文字の配置に関する知識を積極的に活用して線画構造を解析し、接触した数字や記号があっても1文字ずつに分解して認識できるエキスパートシステムを開発している.本方式は基本的には8年前に完成させているが、少し修正を加えた方式が現在、実用化に供されようとしている. 　第4章は、手書きのストロークが折り返し点を経由点とするスプライン曲線の当てはめによってよく近似されることを示し、これを利用した手書き文字の認識手法を提案している.この方法は特徴点の対応づけを行えば、文字の位置や大きさなどの正規化を必要とせず、文字線の途切れやノイズを含む画像中の文字の読み取りにおいても頑健さを発揮する.また、本手法によって、連続した手書き数字の切り出しと認識が同時に行えることも実験的に確認している. 　第5章は、提案した各方法の成果をまとめ、実用化の現状を述べるとともに残された新たな実用化の課題についても述べている. 　以上を要するに、本研究は自由手書き文字の三つの認識手法を提案するとともに、実用化を阻んでいたいくつかの問題点を解決し、OCR装置の開発に至る道をつけることに成功したものであり、文字認識の研究に大きく貢献している.よって本論文は博士(工学)の学位請求論文として合格と認められる.
UTokyo Repositoryリンク