学位論文要旨



No 123046
著者(漢字) 古賀,昌史
著者(英字)
著者(カナ) コガ,マサシ
標題(和) 体験記録のための文字認識技術の研究
標題(洋)
報告番号 123046
報告番号 甲23046
学位授与日 2007.09.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6663号
研究科 工学系研究科
専攻 先端学際工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,通孝
 東京大学 教授 伊福部,達
 東京大学 教授 堀,浩一
 東京大学 准教授 広田,光一
 東京大学 講師 谷川,智洋
内容要旨 要旨を表示する

個々人の体験を計算機に蓄積して活用しようというアイデアは,1945年のVannevar BushのMemexにまでさかのぼる。近年の技術の進歩により,膨大な画像を個人の生活の中で入手・蓄積できるようになった.これに伴い,体験記録(LifeLog)に関する様々な研究が行われるようになっている.

一方,蓄積した画像をいかに活用するかという課題は未だに解決されていない.特に、検索のためのインデキシングが依然として大きな課題である。特に、画像中の文字は,もっとも検索の手がかりとして重要なもののひとつであり、文字認識により自動的にインデックスを付与する技術への要望が高まっている。

文字認識の技術は、帳票処理,郵便区分機,小切手処理,テキストリーダなど,様々な分野で文字認識が利用されるようになっている.一方,体験記録においては,多様な撮影機器や撮影条件(照明,撮影角度など)で撮られた画像を対象とし,多様な対象から文字を読み取る必要がある.従来の技術では,このような条件では実用的な精度は達成できていない.

本研究では、文字認識技術を,特に検索への応用の観点から改良していく.まず,文書レイアウト解析,文字切出し,文字識別,言語処理などの基盤的な要素技術を改良し,多様な読み取り対象に対応可能な文字認識技術を実現することを試みた.さらに,多様な撮影機器・撮影条件に対応するため、色情報利用,頑健な文字領域抽出などの改良を行った.

さらに、本研究では改良した文字認識技術を,体験記録の画像アーカイブ検索に適用し、有効性を検証した。

審査要旨 要旨を表示する

個々人の記録を機械で自動的に蓄積して活用する技術、「体験記録技術」が近年注目を集めている。これに伴い、大量に蓄積された画像から、いかにして所望の記録を検索するかが技術課題として重要になっている。本論文は、この課題を文字認識技術で解決する、新しい研究について述べている。文字認識に関する研究は過去にも多数あったが、本論文は特に体験記録の観点から認識方式、適用方法、効果の評価を掘り下げた点で特色のあるものとなっている。

第1章では、本研究の背景と目的について述べている。ここでは、近年のエレクトロニクスの進歩により、大量の画像の扱いが可能となった一方、検索が技術課題として残されていることを指摘している。そして、大量に蓄えられた体験記録画像の検索を、文字認識によって可能とすることを、研究目的として定義している。

第2章では、体験記録技術の動向について述べ、さらに体験記録画像検索に求められる技術要件を明らかにしている。まず、情報処理技術として、収集、蓄積、検索、表示が体験記録に必要な機能であると分析している。そして、体験記録の過去の研究事例を分析し、検索が技術課題として残されていることを示している。また本章では、画像検索の様々なアプローチを比較検討している。ここでは、文字は、検索要求の入力の容易さなどの観点から検索の手がかりとして優れていること、実際の画像アーカイブを分析すると2、3割程度の画像で文字が重要な手がかりとなっていることを明らかにている。さらに、文字認識技術の動向を分析し、体験記録画像の検索に必要な、景観中の文字を認識する技術が未だに完成していないことを示している。上記の調査結果に基づき、文字認識による画像検索を実現するための技術要件を検討し、未知位置の文字の自動検出・認識、照明条件の変動への対応、多様な文字色への対応などが必要であることを明らかにしている。

第3章では、上記の技術要件を満たす文字認識技術体系について述べている。まず、文字認識処理の概要を示し、個々の要素技術に求められる課題をマップ化している。さらに、個々の課題を解決するための、文字行抽出技術、レイアウト解析技術、文字切出し技術、文字識別技術、言語処理技術について述べている。特に、言語処理系の要素機能として文字認識を用いる、言語駆動型文字列認識方式の技術体系を新たに構築したことに、本研究の特色がある。また、言語駆動型文字列認識に、トライや文脈自由文法などの言語辞書形式を適用することで、多様な文字列の高速高精度認識を実現した点は独創的であり、文字認識技術の進歩に大きく寄与した。加えて、言語駆動型文字列認識の一要素である、文字配置統計量利用文字切出し技術は、同様の研究の試みの中で先駆的なものとなっている。また、ここで開発したテクスチャ情報に基づく文字行抽出技術、カラークラスタリング技術は、照明条件の変動や多様な文字色へ対応し、従来困難であった景観画像への文字認識の適用を可能とする新しい技術である。

第4章では、上記の文字認識技術を体験記録画像の検索に適用し、その効果を評価した結果について述べている。まず、著者の体験記録画像中の英単語765サンプルに対し、72.3%が認識できることを実験で確認した。ここで、文字認識に残された技術課題には、投影歪、書体の多用さがあることを明らかにしている。さらに、著者の体験記録画像1,729枚中520枚(31.2%)に対して文字認識でインデキシングができることを実験で確認した。また、ここでは、画像に付与された位置情報、時刻情報を併用することで、より有効な検索が可能となる見込みであることを示している。これらは、今後の体験記録技術の研究を進める上で重要な知見となるものである。

第5章では、本研究で開発した技術の体験記録以外の適用の可能性について述べている。第一に、インターネット等を介して大規模なデータが共有される環境への応用について検討し、特に動画コンテンツの検索が重要な課題となる可能性がある点を指摘している。第二に、本研究で開発した景観中文字の認識技術を、携帯機器への適用の可能性について述べている。ここでは、携帯電話向けの漢字認識を例にとり、実装上の諸問題について検討している。そして、日本語固有の縦書き・横書き混在に対応したユーザインタフェース、統計的学習を利用した文字識別辞書省メモリ化技術、辞書引きのアプリケーションに適した言語処理方式について明らかにしている。また、この携帯電話での文字認識を利用した、情報アクセス方式についても述べている。

筆者の研究は、体験記録への適用の観点から文字認識技術を深く掘り下げた、前例のない試みである。筆者が研究した言語駆動型文字列認識、色情報利用は新規の技術体系であり、文字認識技術の進歩に大きく貢献した。また、大量情報の利用が始まった近年、特に重要になった検索の問題に取り組んだ研究であり、有用性が高いものである。

よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク