内容要旨 | | 文字による情報の記録・伝達を紙媒体を用いて行うことは,人間にとって本質的であり,その取り扱いは極めて容易である.それゆえ,情報の記録・伝達の電子化が急速に進展してきている今日でも,金融業,流通業,保険業,郵便サービス等の事務処理の現場では,依然として大量のデータが紙媒体を用いて記録・伝達されている.これらの文字データを効率的に計算機に入力する手段として,光学式文字認識(Optical Character Recognition [OCR])技術の利用に対するニーズは強いものがある.しかし,現在のOCR技術では実際の対象を読み取る能力はまだ十分なレベルには達しておらず,事務処理におけるOCRの実用化はスムーズに進展していない.本研究では手書きOCRの実用化における二つの問題点の解決に取り組む. 文字の認識処理は文字の記入された画像から文字を1つ1つに分離する切り出し処理と,切り出された各々の文字を認識する個別文字の認識処理とによって達成される.個別文字認識については,半世紀におよぶ文字認識研究の結果,高い認識能力を持った手法が開発されている.ところが,現場でのOCR装置の認識率の良し悪しは,筆記具や用紙の種類,書き手の地域性,あるいは観測系の方式や個体差に依存する.そのためメーカーの開発者は読み取りの対象とするサンプルに従って識別辞書の再構成を行って対応している.したがって,識別辞書の構成を短時間で効率よく行うことが重要な課題となっている.本研究では読み取り対象のサンプルに従って識別辞書を逐次再構成して対象の変動に対応することをめざし,最近傍識別法を利用した識別手法の開発を行う.このことが第一の問題点に対する取り組みである. 最近傍識別法は分布未知のパターンに対してベイズ識別に近い高い識別能力を得ることが知られている.また読み取り対象から抽出された標本パターンの特徴量をそのまま辞書に格納して参照パターンとして使用することが可能である.ところが,参照パターンが増加するにつれ記憶容量と探索時間が増大するという難点がある.従来,ボロノイ線図を応用して識別に有用でないパターンを参照パターンから削除する方法や,訓練サンプルを用いて参照パターンを繰返し修正することによって,参照パターンの少数化を図る手法が提案されている.これらの手法は識別部の設計に大きな計算時間を要する.本論文では,K-M木とよばれる2分木を辞書のデータ構造として用い,木内の探索における距離計算の回数を削減する手法を提案する.K-M木へデータを格納する処理時間はデータ数Nに対して(NlogN)と小さく,しかもデータを木へ逐次に追加・格納することが可能である.これらの特長により,多様な読み取り対象に対応して高性能な識別系を迅速に設計できることが期待される.K-M木の従来の探索アルゴリズムでは,三角不等式に基づいて探索範囲を狭化することによって距離計算の回数を削減している.この探索では,データの次元数が増加してくると距離計算の削減効果は低下してくるため,文字認識で扱う数十〜数百という高い次元数では十分に高速化が達成できない.筆者らの提案法では,従来の探索範囲を狭化する条件にパラメーターを導入することにより,探索範囲をより狭化できるようにして高速化を達成する.パラメーターの導入によって,最近傍点が探索される保証はなくなるが,このことによる識別能力への影響と高速化の改善効果について,筆記条件あるいは字種(数字,英大文字およびカタカナ)の異なる4つの手書き文字のサンプルを用いた実験を行って検討する.実験では,高いカテゴリー分離能力を持つことが知られている輪郭の方向成分を反映した100次元の特徴量を用いる.適切にパラメーターを設定することによって,高い正読率を保ちながら大幅な高速化が達成できることを実験により示す.また,このようなパラメーターの設定方法についても検討する. 文字認識の実用化がスムーズに進展しない第二の問題点として,文字切り出しの難しさがある.現実の読み取り対象から得られる画像には,文字以外に枠線等の背景が混在し,各々の文字は隣接する文字および背景との間で接触を生じる.従来の文字認識では認識を行う前に文字が個々に分離されていることを前提としている.そのため,現実の手書き文字に従来の文字認識手法を適用するためには,一つの連結した黒画素領域のその部分が一つの文字に対応するのか,あるいは枠線等の背景なのか,を解析して個々の文字に分解する技術の開発が必要となる.本研究では,米国で普及しているパーソナルチェック(Personal Check [PC])に手書きされたドル金額を認識するエキスパートシステムを開発する.ドル金額の表記の仕方は多様で,日本円のように数字の横書きだけでなく"下線","100"および"××"等の記号がセントの桁を表す数字の下部やその周辺に書かれているものが混在する.しかしPCのドル金額の記入欄には文字を1つ1つに分離する仕切りがなく,個人個人が自由に手書きする.そのため文字の配置は様々に変形し,また文字どうしの接触が頻繁に起こる.従来,文字を含む手書き日本語文字列から文字認識の結果を利用して個々に文字を切り出す手法や,互いに左右に接触した手書き数字を個々に分解して認識する手法がいくつか提案されている.多様な文字配置が混在するPCの金額欄の認識では,文字を個々に分解して認識する前に,ドル金額欄の画像の構造を解析する技術も必要となる.印刷文書に対しては,対象に依存した知識を利用して文書の構造を解析する例が多く見られる.しかし手書きの場合では,文字の大きさや文字間ピッチ等の変動に加えて文字間の接触による黒画素の連結構造の変化を考慮しなければならない.本研究では,PCの金額欄の線画からブロックとよぶ連結領域を構成し,文字の配置パターンに関する知識を積極的に活用して線画の連結構造を解析するエキスパートシステムを開発する.この解析ではドル金額の表記の多様性と手書きの不明確さに対処するため,仮説-検証のアプローチを採る.最初に仮説段階として,ブロック個々のあるいはブロック間の断片的な特徴から配置のタイプが何であるかを仮説する.続いて検証段階として,配置タイプの仮説に基づいて金額欄を構成する全部のブロックの属性を明確にしながら仮説の妥当性を検証する.本システムは,以上のようにブロックの解析を行った後,各々のブロックの属性に応じた特有な処理によって横方向にあるいは縦方向にも接触した文字を個々に分解して認識する.このようにしてPCのドル金額の認識を行うシステムについて述べる. 文字間の接触だけでなく,画像が低品位で文字線の途切れおよびノイズが多く発生している場合,文字の切り出しは極めて複雑になる.この問題を前述したようなプロダクションシステムによって実現された仮説-検証の枠組みで扱おうとしても,システムが複雑になり破綻することが予想される.この原因は,正確な文字の切り出しを必要とする従来の個別文字認識手法を用いていることにある.したがって,文字線の途切れおよびノイズを含む画像に対しても耐力のある手書き文字の認識手法を開発することが重要となる. 低品位な画像の解析ではモデルマッチングによるアプローチが有効であり,従来このアプローチを採った文字認識手法がいくつか開発されている.文字のストロークを線分の系列によってモデル化し,モデルと入力画像とのDP(Dymanic Prograrming)マッチングによって手書き文字を認識する手法や,最小化原理に基づく書字モデルを利用した筆記体の英単語の認識手法が提案されている.前者では,ストロークを折れ線によって正確に近似するために個々の線分を短くして線分数を増加させる必要があり,モデルのコンパクト性に問題がある.後者では,1つの文字は3つの代表点で形状が規定されるスプライン曲線の連結によって合成されるものとし,各スプライン曲線にアフィン変換を施して入力パターンとのマッチングが行われる.アフィン変換はスプライン曲線の3つ代表点と入力パターンの特徴点との対応づけによって決定される.しかし,対応づけによって決定されるアフィン変換は最適なものではないためマッチングの精度が低く,また文字線が途切れた場合には特徴点が消失してアフィン変換を求めることすらできなくなる.本研究では,このような点を改善した認識手法を提案する.すなわち,手書きのストロークが折り返し点を経由点とするスプライン曲線のあてはめによってよく近似されることを実験により示した上で,このことを利用した手書き文字の認識手法を提案する.認識の方法はまず,モデルの代表点であるスプライン曲線の経由点と画像の特徴点との対応づけを行う.次に,経由点におけるスプライン曲線のパラメーターを変動させることによってスプライン曲線から入力画像への重なり度合いが極大となるようなマッチングを行う.文字の認識はマッチングされたスプライン曲線と画像の一致度に基づいて行われる.本認識手法おいて,スプライン曲線の経由点と画像の特徴点との対応づけが,従来のパターンマッチング法における位置合わせおよび大きさの正規化処理に相当するため,正確な切り出し処理を必要としない.しかも,特徴点の対応づけにおいて,文字線の途切れやひげなどのノイズの発生による特徴点の変化を考慮した対応づけの規則を設けて,対応のもれを防ぐようにしている.この規則を適用することによって経由点は折り返し点からずれが生じるが,スプライン曲線のあてはめによって安定したマッチングが達成される.以上のような提案手法の有効性を,途切れやノイズを含む手書き数字を対象とした認識実験により示す.また,前処理として文字の位置および大きさの正規化を必要としないことを利用して,本手法によって連続数字の文字切り出しと認識が同時に行えることも示す. |