学位論文要旨



No 114229
著者(漢字) 太田,学
著者(英字)
著者(カナ) オオタ,マナブ
標題(和) 認識誤りを含むテキストの検索手法に関する研究
標題(洋)
報告番号 114229
報告番号 甲14229
学位授与日 1999.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4355号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 安達,淳
 東京大学 教授 斎藤,忠夫
 東京大学 教授 田中,英彦
 東京大学 教授 石塚,満
 東京大学 教授 喜連川,優
 東京大学 助教授 相田,仁
内容要旨

 あらゆる種類の情報を電子的に蓄積し、利用者の閲覧や検索要求に応じて効率良く所望の情報を提供する電子図書館の研究が1990年代に入ってから加速度的に進み、世界各地で様々なコンセプトをもつプロジェクトが立ち上がっている。中でも文書を蓄積対象とする電子図書館では、主としてデータ入力コストの観点から大量の印刷文書を画像で入力しOCR(Optical Character Recognition)を使って全文データベースを構築する試みが最近行なわれるようになってきた。このときOCR処理によって得られたテキスト情報は、従来はその認識誤りを訂正してから電子図書館のもつデータベースに格納していたが、蓄えられるデータの多様化、大量化に伴って書誌情報など一部を除いてはOCR認識誤りの訂正は行なわずそのまま格納されるようになってきている。しかし、認識誤りを含むことにより検索時に検索洩れなどが問題となるため、認識誤りを含むテキストに対して高い検索効率を実現できる検索手法が強く求められるようになってきた。

 学術論文などの文書の提供を目的とした電子図書館の実現形態には大きく分けて、スキャナ等で読み込んだ文書イメージをそのまま蓄積して文書画像でみせるものと、全文をSGML(Standard Generalized Markup Language)やHTML(Hyper Text Markup Language)などマークアップ言語を用いて作成しWWW(World Wide Web)ブラウザなどでみせるものの2つがある。

 ・文書画像を扱う電子図書館

 閲覧用に誌面をスキャンしたページイメージ(文書画像)を蓄え、検索用に全文または抄録などをOCR認識して得た誤りを含むテキストデータや人手で作成した2次情報などを用いる。

 ・全文をSGMLなどテキストで蓄える電子図書館

 ページイメージは雑誌の表紙程度にとどめ、蓄積主体の論文などはSGML化やHTML化した全文テキストとする。この場合1次/2次情報を問わず、誤りの極めて少ないテキストデータが得られるので、閲覧、検索双方にこの全文データを用いる。

 これらの文書画像と全文テキストを用いる方法の優劣は常に話題となるが、前者には過去の膨大な資料の遡及入力が容易であること、印刷文書のもつレイアウト情報の保持、多言語への対応が容易であるなど文書の再現性が高いことなどの利点がある。一方後者には、閲覧と検索が1つの全文データで対応できること、蓄積・送信するデータ量が少なくてすむなどの利点がある。よって将来的には、執筆から流通、閲覧に至るまで一貫して電子的に文書データが作成されるようになるであろうが、現在は最終形態が印刷物である場合も少なくなく、過去の膨大な印刷文書も無視できない。そこで本研究では、前者のアプローチをとる電子図書館を想定する。

 このような文書画像を扱う電子図書館を実現するには、

 ・文書画像解析及びOCR文字認識による検索データの自動作成・入力

 ・認識誤りを含むテキストに対する検索手法

 という2つの課題解決が必要で、前者はデータ入力時の後者はデータ検索時の課題である。このうち前者を解決するための文書画像解析やOCR文字認識などの文書認識の研究は、成熟期に入ってきており現実的な誤り率を実現しつつある。そこで本研究では後者の課題、すなわちOCR認識によって得た不完全なテキストに対する検索手法について提案を行ない、また本論文ではこのような認識誤りを含むテキストに対する検索手法のことを曖昧検索手法と呼ぶ。

 本研究で提案する曖昧検索手法は基本的に、認識誤り特性に関する情報を保持した類似文字テーブルや統計的言語モデル(bigram)に基づいた文字の連接情報を保持したテーブル、あるいはこの2種類の情報を統合的に扱ったHMM(Hidden Markov Model)を用いて1つの検索語を複数の妥当な検索文字列に拡張し、その拡張文字列を用いて認識誤りを含むテキストを検索することで検索ノイズを抑えながら検索洩れを救済する手法である。本研究では、認識誤りを置換・欠落・挿入・結合・分解誤りの5種類に分類し、トレーニングセットに現れるそれぞれの誤りの頻度統計を元に誤り易さを表す確率を求め、個々の拡張検索文字列の妥当性を確率に基づいた得点(確信度)で表す。このとき高い検索効率を実現し、かつ拡張検索文字列数が不用意に増加するのを防ぐために、提案する認識モデルに基づいて個々の拡張検索文字列の確信度を計算し評価する点が最大の特徴である。

 検索対象とするテキストにおいて使用されている全ての文字集合を{C1,C2,,Call}とし、OCRに認識される元の文字がCxである事象をAx、OCRが認識結果として出力した文字がCyである事象をByとするとき、この確信度は認識の誤り易さに関連する確率(P(Ax|By)やP(By|Ax))や文字の接続確率(P(Ay|Ax))に基づいて計算している。よって確信度を評価することで拡張検索文字列を絞り込むことができ、検索に有効な文字列を選択し、効率よく検索することができる。

 本論文では、確信度を求めるための認識モデル及び計算アルゴリズムを複数提案し、和英文双方の実験データに対して検索実験を行ない定量的な評価を行なった。

 その結果認識誤り特性の学習に用いなかった和文テストセットに対する検索実験で、通常の10倍程度の検索コストで約96%であった再現率を99%以上に改善し、かつ99%以上の適合率を実現できることを示した。一方英文テストセットに対する検索実験でも同程度の検索効率を実現できたが、和文と同じ得点付けアルゴリズムを用いると検索コストがかかりすぎることが判明した。この理由は拡張検索文字列数が検索語長の指数のオーダーで増加するという提案手法の本質的な問題であったが、これが英文曖昧検索においてのみ特に問題となったのは、両言語の文字種の数の差に原因があり、文字種の多い和文では文字あたりの認識誤り候補が少なくなるが、逆に英文では多くなっていたためである。そこで英文曖昧検索においては、このような英文の特徴を考慮した得点付けアルゴリズムを提案し、定量的な評価を行なった結果、和文と同程度の検索効率と検索コストを実現できることを示した。

 本論文では、文書画像を扱う電子図書館において不可欠である認識誤りを含むテキストの検索手法を複数提案し、定量的な評価を行ない、検索語拡張の際の指針となる認識モデルについて考察した。実験結果から、現在実用に供されている和英文OCRの出力結果に対して、現実的な検索コストで高い検索効率を実現できることを示した。

 本研究で示した認識モデルは確率を基礎に考えておりその意味で汎用性をもつ。よってOCRによる認識誤りのみでなく、例えば音声認識など他の認識系においても、元のシンボル系列とそれに対応する認識結果のシンボル系列がトレーニングセットとして得られれば適用可能であり、そのような問題に対しても広く応用されることを期待している。

審査要旨

 本論文は「認識誤りを含むテキストの検索手法に関する研究」と題し、画像として電子化された文書から文字を認識し、認識誤りを含む不完全なテキストをデータベース化し曖昧検索を行う手法についての詳細な研究で、8章から構成されている。複数の検索処理手法を提案するとともにその性能を評価し、実用的なシステム実現の基礎を与える研究といえるものである。

 第1章は、「はじめに」であり、本研究の背景、問題の所在、研究の目的と論文の構成について述べている。今後増える電子図書館で検討されているシステム形態と必要になる技法について概説している。

 第2章は「関連研究」と題し、本研究に関連した文字認識技術、OCR技術の現状と課題、大量の文書情報を電子化する場合に起こる問題、その中での曖昧検索の重要性とその研究状況について説明している。

 第3章の「提案する曖昧検索手法」では、本研究で提案する曖昧検索手法として、類似文字テーブルに基づき、間合わせ文字列に対して、複数の妥当な検索文字列を見いだし、認識誤りを含むテキストに適用することにより、高い検索性能を実現する手法を提案している。

 まず、OCRで発生する認識誤りを統計的に解析し、単純なパターンの他、文字の分解や結合など五種類の類型化を行っている。これらに対して、Confusion Matrix Retrieval Method(CMR法)、Expanded Confusion Matrix Retrieval Method(ECMR法)、Bigram Matrix Retrieval Method(BMR法)の三種の曖昧検索法を提案している。

 文字に対して確信度を定義し、置換誤りの発生に対する確信度を類似文字テーブルに格納し、CMR法で使用する。ECMR法ではこれに加え、それ以外の誤りパターンを拡張類似文字テーブルに格納し、確信度を求める。一方、BMR法では、bigram統計から得られる文字の接続確率から確信度を求めるという方法を採用している。

 これらの相異なる手法に沿って問合わせ文字列に対して検索文字列の確信度を計算することにより、有効な文字列を選択することが可能となり、手法毎の特性が現れることになる。

 第4章は「曖昧検索手法の評価」と題し、提案した三種の手法が和文、英文に対して持つ検索特性を実験的に評価している。

 和文ではデータとして、学術論文80KBをトレーニングセットとし、さらに50KBのテストセットを使用した。また、英文でも同程度のデータで評価している。bigramは和英それぞれ500万、250万文字を用いてテーブルを作成している。

 和文については、再現率、適合率とも99%以上の値がECMR法により達成できている。BMR法でも同レベルの性能が発揮できたが、最適閾値がECMR法より高く、検索ノイズを抑えやすいという利点が明らかになった。

 第5章は、「英文曖昧検索」と題し、三種の検索手法を直接英文に適用した場合の問題を論じて解決策を示している。英文は和文と異なり文字種が少ないため、適合率が和文に比べて低く、また検索文字列が爆発的に増えるという問題がある。これに対応するための発見的アルゴリズムを考案し、検索性能を損なうことなく実用的に問題のない数にまで検索文字列を削減する方法を説明している。

 第6章は、「HMMに基づいた英文曖昧検索手法」と題し、文字列の状態を定義し、その遷移の際に認識結果を出力するようなHidden Markov Modelに従うような曖昧検索手法を提案している。これは、提案したECMR法とBMR法を統合した手法とも見なすことができ、英文のような文字数の少ないテキストに対する多種の認識誤りに対応可能な検索手法となる。トレーニングセットを用いた手法の評価において高い性能が発揮されることが示され、さらにパラメータの学習を行うことにより効果が期待できる。

 第7章は、「考察」と題し、これまでに提案してきた曖昧検索手法を比較し、その手法と適用範囲について論じている。さらに、本研究で提案している確信度と逆確信度という概念を確率論的に分析し、その関係を明らかにしている。

 第8章の「おわりに」では、本研究で提案された手法と結果についてまとめており、所望の結果が得られたことを説明している。また、今後の方向性についてまとめている。

 以上のように、本論文は、文書画像を扱う電子図書館等で必須のOCR認識誤りを含むテキストの検索手法に関して、様々な手法を広く検討し、和文および英文に適用し定量的な評価を行うとともに、認識モデルに基づく統合的な手法の理論検討を併せて行い、現実的に有効でかつ高い検索性能を発揮する手法を明らかにした研究であり、電子情報工学に貢献するところが少なくない。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/54693