学位論文要旨



No 128614
著者(漢字) 浜村,倫行
著者(英字)
著者(カナ) ハマムラ,トモユキ
標題(和) 階層内・階層間の確率論的統合による自由手書き住所認識の研究
標題(洋)
報告番号 128614
報告番号 甲28614
学位授与日 2012.09.13
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第394号
研究科 情報理工学系研究科
専攻 システム情報学専攻
論文審査委員 主査: 東京大学 教授 嵯峨山,茂樹
 東京大学 客員准教授 亀岡,弘和
 東京大学 教授 石川,正俊
 東京大学 教授 安藤,繁
 東京大学 教授 佐藤,洋一
内容要旨 要旨を表示する

本論文では,自由手書き文章認識について論じる.制約なしで記載された手書き文章の認識は,板書の認識,手書きメモの認識,罫線のないノートの認識,郵便物の手書き住所の認識などの幅広い応用が期待される重要な技術である.特に手書き住所の認識は郵便物の自動区分機として早くから実用化されている産業上重要な技術である.

文字の認識結果から一階層上の単語,更にはもう一階層上の文章を認識する処理の難しさの本質は,文字と単語,単語と文章の間に強い依存関係があり,上位階層を考慮することなしに下位階層を決めることができないことにあると考えられる.このような問題は,全ての階層の認識を統合し,top-downのアプローチで解くべきであると考える.しかし,自由手書き文章において,これまで全階層の統合は成されておらず,top-downアプローチでの認識は実現されていない.そこで本研究では,top-downアプローチでの自由手書き文章の認識を扱う.また,自由手書き文章認識はクラス識別問題であるから,エラー率最小とするためにはベイズ決定則に基づいた識別を行うのが最適である.本研究では,ベイズ決定則に基づいた自由手書き文章の認識を論じる.

まず,自由手書き文章認識の代表例である手書き住所認識について,一般的な処理の流れと従来研究を2章で説明する.本研究では処理の流れの中で前半に位置している「前処理」、「二値化」、「行抽出」、「単語仮説生成」については従来法を用いるものとし、後半の「住所データベース探索」、「単語認識」を研究対象とする。

次に,環境依存による文字変形を論ずる.3章では,音声認識で発展している環境依存HMMを手書き単語認識に利用する場合の問題点を明らかにし,手書き単語認識に有効であるPartial Tied-Mixtureモデルを提案する.環境による変動が支配的である場合,先に環境をクラスタリングするという従来法は有効に働くと考えられるが,手書き文字の場合,字体(ブロック体/筆記体),手書き変形などによる変動が環境に比べ大きいため,従来法はうまく働かないと考えられる.Partial Tied-Mixtureモデルは,各環境のGMMのmixture単位で互いに共有することを許すモデルであり,環境のクラスタリングとGMM推定を同時に行うことに相当している.そのため,手書き文字のような環境以外による変動の大きな場合でも有効に働くことが期待される.Partial Tied-Mixtureのパラメータ推定を尤度最大化基準で行い,EMアルゴリズムを適用することでパラメータの更新式を導く.CEDARデータベースを用いた手書き単語認識実験により,Partial Tied-Mixtureの有効性が示される.

次に,単語認識について議論する.単語認識の解析的手法と全体的手法はそれぞれにメリット・デメリットがあるため,両手法を併用するのがよいとされている.本研究でも認識精度向上のため両手法を併用する.文字・単語・文章を通したtop-downアプローチをベイズ決定則に基づいて実現するためには,単語認識の評価値は尤度か事後確率でなければならない.全体的手法では主に隠れマルコフモデルが用いられ,尤度を出力することができるが,解析的手法では従来事後確率の計算法は存在していない.

そこで4章では,解析的手法における事後確率の近似計算式を導出する.従来提案されているベイズ決定則に基づいた方法は,文字の切り出しが一意に定まりかつ語彙内単語の長さが一定の場合にのみ適用できる,非常に範囲の限定されたものであった.この方法を一般的な場合に単純に適用すると,単語長が長いほど不利になるという問題が生じる.そこで本研究では,まず一般の場合に計算すべき事後確率を示す.この事後確率はそのままでは計算困難であるため,近似・式変形により各文字仮説の尤度や事後確率などから計算できる形を導出する.更に,ベイズの定理の分母に対する粗い近似を改善する別の近似変形を示す.分母を語彙内単語の和の形に分解する方法(正規化事後確率比),注目する単語仮説以外にも何らかの文字列が書かれているとする方法(拡張事後確率比),分母にも何らかの文字列が書かれているとする条件を付ける方法(探索向け拡張事後確率比)が導出される.スウェーデンの手書き都市名単語を用いた単語認識実験により,提案法が従来法に比べ優れており,更に近似精度改善に伴い認識率が向上することを示す.

更に,5章では,解析的手法と全体的手法をベイズ決定則に基づいて統合する方法を提案する.従来は解析的単語認識の事後確率を計算する方法がなかったため,統合方法もヒューリスティックにならざるを得なかった.我々は,まず計算すべき統合後の事後確率が,解析的単語認識での全情報と全体的単語認識での特徴ベクトル列を両方を条件としたものであることを示す.この事後確率はそのままでは計算困難であるため,4章の成果をもとに近似・式展開を行い,計算可能な形を導出する.更に,統合時に初めて問題となる2つの近似誤差を示し,その補正方法を提案する.1つは解析的単語認識の事後確率計算にて,文字切り出し失敗を考慮していないことに起因する近似誤差であり,考慮した計算式を導出する.もう1つは,全体的単語認識にて,明らかに相関の高い各特徴ベクトルを独立とすることに起因する近似誤差であり,べき乗するというシンプルな補正により近似精度を向上する.スウェーデンの手書き単語画像を用いた単語認識により,2つの近似誤差補正を用いることで従来法を凌ぐ認識率を達成できることを示す.

最後に,文章認識について議論する.文章認識問題は,tree構造の探索問題と見なすことができる.6章では,tree構造の探索問題と見なすことのできるパターン認識問題全般を議論の対象とする.一般にパターン認識で用いられているビーム探索では,与えられた制限時間に合わせてビーム幅の調整を行う必要がある.しかし,一般に制限時間が各データごとに異なる場合が少なくない.このような場合,制限時間があらかじめ分からないためビーム幅の調整を行うことができず,認識精度の低下を招く.そこで,上述の問題の起こらない最良優先探索を用いる.最良優先探索では異なるdepthのノードを比較する必要があるが,従来は適切な評価値がなかった.我々はノード間の比較にベイズ決定則を採用したベイズ最良優先探索(Bayesian Best-Firstsearch: BB search)を提案する.ベイズ決定則を用いるため,事後確率の近似計算式を導出する.スウェーデンの手書き住所認識実験により,ビーム探索に対する優位性が示される.

審査要旨 要旨を表示する

本論文では、自由手書き文章認識について論じられている。制約なしで記載された手書き文章の認識は、板書の認識、手書きメモの認識、罫線のないノートの認識、郵便物の手書き住所の認識などの幅広い応用が期待される重要な技術である。特に手書き住所の認識は郵便物の自動区分機として早くから実用化されている産業上重要な技術である。

文字の認識・検証結果から一階層上の単語、更にはもう一階層上の文章を認識する処理の難しさの本質は、文字と単語、単語と文章の間に強い依存関係があり、上位階層を考慮することなしに下位階層を決めることができないことにある。しかし従来、自由手書き文章の認識において全ての階層の統合は成されていない。本論文では全階層を確率論的に統合したtop-downアプローチでの認識が実現されている。更に、単語階層の認識・検証の高精度化には不可欠である二手法(Analytic/Holistic Approach)の統合をも確率論的な方法で実現し、階層内・階層間の統合が同時に実現されている。

階層内・階層間の確率論的統合によりtop-dpwnアプローチを実現するためには、(1)隣接文字(環境と呼ぶ)に依存した文字変形の扱い方、(2)Analytic Approachでの事後確率計算、(3)二手法統合後の事後確率計算、(4)自由手書き文章認識へのベイズ決定則適用、(5)効率的な仮説生成・検証戦略、の5つの課題を解決する必要がある。本論文では、3章にて課題(1)、4章にて課題(2)、5章にて課題(3)、6章にて課題(4)(5)が扱われている。

まず3章では、環境に依存した文字変形の扱い方が論じられている。文字変形の要因には、字体(ブロック体/筆記体)、書き順等様々なものがあるが、その多くは学習データにラベル付けされていない。一方、環境はラベル付けされた変動要因である。ラベル付けされた変動要因の扱い方として、ラベルごとに別の生成モデルを学習することが考えられる。ラベルごとのモデルは、字体などのラベル付けされていない変動を扱う必要があるため、GMMで表すのが妥当である。ここで、環境のようにラベルの種類が大量に存在する場合、一つ一つのモデルの学習に用いられる学習データが不足し過学習に陥る問題がある。そこで、本論文では各環境のGMMをmixture単位で共有することを許すモデルであるPartial Tied-Mixture(PTM)が提案されている。従来法のtied-mixtureでは全てのmixtureを全ての環境が必ず共有するのに対し、提案されているPTMは各mixtureの共有の有無を自由に設定できるモデルである。これにより、各環境により特化したモデルの学習が可能となり、識別力の向上が期待できる。Partial Tied-Mixtureのパラメータ推定(上記共有の有無を含む)を尤度最大化基準で行い、EMアルゴリズムを適用することでパラメータの更新式が導かれている。CEDARデータベースを用いた手書き単語認識実験により、Partial Tied-Mixtureの有効性が示された。

次に4章では、Analytic Approachにおける事後確率計算法が論じられている。従来提案されているベイズ決定則に基づいた方法は、文字の切り出しが一意に定まりかつ語彙内単語の長さが一定の場合にのみ適用できる、非常に適用範囲の限定されたものであった。そこで本論文では、まず一般の場合に計算すべき事後確率が、何を条件とした何の確率であるかを明確にしている。この事後確率はそのままでは計算困難であるため、近似・式変形により各文字仮説の尤度や事後確率などから計算できる式を導出する。更に、ベイズの定理の分母に対する粗い近似を改善する別の近似変形として、分母を語彙内単語の和の形に分解する方法(正規化事後確率比)、注目する単語仮説以外にも何らかの文字列が書かれているとする方法(拡張事後確率比)、分母にも何らかの文字列が書かれているとする条件を付ける方法(探索向け拡張事後確率比)が導出される。スウェーデンの手書き都市名単語を用いた単語認識実験により、提案法が従来法に比べ優れており、更に近似精度改善に伴い認識率が向上することが示された。

次に5章では、単語認識の二手法(Analytic/Holistic Approach)の確率論的な統合方法が提案されている。従来はAnalytic Approachにおいて事後確率を計算する方法が存在しなかったため、統合方法もヒューリスティックにならざるを得なかった。本論文では、まず計算すべき統合後の事後確率が、Analytic Approachでの全情報とHolistic Approachでの特徴ベクトル列の両方を条件としたものであることが示される。この事後確率はそのままでは計算困難であるため、4章の成果をもとに近似・式展開を行い、計算可能な式が導出される。更に、統合時に初めて問題となる2つの近似誤差が明らかにされ、その補正方法が提案される。1つはAnalytic Approachの事後確率計算にて、文字切り出し失敗を考慮していないことに起因する近似誤差であり、考慮した計算式が導出される。もう1つは、Holistic Approachにて、明らかに相関の高い各特徴ベクトルを独立とすることに起因する近似誤差であり、べき乗するというシンプルな補正による近似精度向上が提案される。スウェーデンの手書き単語画像を用いた単語認識により、2つの近似誤差補正を用いることで従来法を凌ぐ認識率を達成できることが示された。

最後に6章では、自由手書き文章認識について議論されている。文章認識問題は、tree構造の探索問題と見なすことができるため、6章では同様に見なすことのできるパターン認識問題全般を議論の対象としている。一般にパターン認識で用いられているビーム探索では、与えられた制限時間に合わせてビーム幅の調整を行う必要がある。しかし、制限時間が各データごとに異なる場合が少なくない。このような場合、制限時間があらかじめ分からないためビーム幅の調整を行うことができず、認識精度の低下を招く。そこで、本論文では上述の問題の起こらない最良優先探索が用いられている。最良優先探索では異なるdepthのノードを比較する必要があるが、従来は適切な評価値がなかった。そのため本論文では、ノード間の比較にベイズ決定則を採用したベイズ最良優先探索(Bayesian Best-Firstsearch: BB search)が提案されている。ベイズ決定則を用いるため、事後確率の近似計算式が導出される。自由手書き文章認識ではこの事後確率が文章の事後確率に相当する。スウェーデンの手書き住所認識実験により、ビーム探索に対する優位性が示された。

本論文の大きな成果は、自由手書き文章認識において、文字・単語・文章の階層間の垂直統合、及び単語階層内での二手法(Analytic/Holistic Approach)の水平統合を確率論的に実現し、従来成されていなかったtop-downアプローチでの認識を実現したことにある。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク