No | 216623 | |
著者(漢字) | 大淵,康成 | |
著者(英字) | ||
著者(カナ) | オオブチ,ヤスナリ | |
標題(和) | 携帯機器向け耐雑音音声認識の研究 | |
標題(洋) | Robust Speech Recognition for Handheld Devices | |
報告番号 | 216623 | |
報告番号 | 乙16623 | |
学位授与日 | 2006.10.05 | |
学位種別 | 論文博士 | |
学位種類 | 博士(情報理工学) | |
学位記番号 | 第16623号 | |
研究科 | ||
専攻 | ||
論文審査委員 | ||
内容要旨 | 音声認識は、いまやPDAや携帯電話などの携帯機器においても使用可能になりつつある。以前はハードウェアの性能の制約により不可能だったが、マイクロプロセッサ技術の革新により、これらのような小さな機器に音声認識機能を持たせることが現実味を帯びつつある。そして言うまでもなく、キーボードを持たないこれらの機器において、音声認識機能の重要性は極めて高い。 携帯機器における音声認識機能が現実的になってきたとはいえ、いくつかの課題が残されていることは間違いない。どのような場面で、どのような使い方で携帯機器が用いられるかに応じて、様々な困難が生じることは想像に難くない。そしてそれらの問題は、単一の解ですべて解決されるものでもない。 本論文の目的は、携帯機器に音声認識を実装する際の諸問題を解析し、その実現のための明確なガイドラインを提供することにある。加えて、その実現のために必要となる新しいアルゴリズムを示すことも重要な目的である。 音声認識システムは、複数のサブシステムの組合せとして構成される。音響モデルや言語モデルの学習など、いくつかのサブシステムに関しては、一般的なコンピュータ上で用いられている方式をそのまま使用することが可能である。そのように課題を分割して考えると、コンパクト性とロバスト性という、携帯機器においてとりわけ重要な二つの課題が最終的に明らかになる。 携帯機器においては、メモリやCPUなどの計算資源が限られている。速やかな反応を得るためには、アルゴリズムは十分に高速でなければならない。実際、これまでにも音声認識アルゴリズム高速化の様々な方式が提案されているが、ハードウェアが未成熟だったこともあり、実際の製品として使用可能な形でこれら諸々のアルゴリズムが統合された例は無かった。しかし、そのような時を経て、ようやく必要な技術が得られるようになった。我々の研究はそこから始まり、携帯機器向けのマイクロプロセッサに焦点を絞ったうえで、様々な技術を統合・最適化し、音声認識ミドルウェアという形の成果を得た。このミドルウェアは、多くの製品において実際に使用されている。 次の段階として、我々はロバスト性の問題に着目した。携帯機器は屋外を含めた様々な環境で用いられることが多く、音声入力が様々な環境雑音により妨害されるという前提のもとで、頑強なアルゴリズムを開発しなければならない。そこで我々はデルタケプストラム正規化(DCN)という新アルゴリズムを提案する。DCNは、わずかな計算量の増加により、雑音環境下での頑強性を実現するアルゴリズムである。DCNの提案は本論文の主要な成果のひとつであり、他の部分においても多く言及されることから、その数理的定式化、可変パラメータの最適化、および様々な環境における実験を通じての評価を行ない、DCNの詳細を明らかにする。 第三段階では、音声認識の更なる性能向上をターゲットとする。これまでの成果によって、携帯機器における音声認識を実現することはできたが、更に劣悪な環境を考えた場合、アルゴリズムの頑強性はいまだ十分とは言えない。このような劣悪な環境に対応することは困難な課題であるが、いくつかのケースにおいては、速度の制約を緩めて考えることが可能であり、そのような場合には、いわゆるマイクロフォンアレイの枠組みが有効である。そこで、携帯機器に取り付けた複数のマイクロフォンの特性を調べる。その結果として得られる携帯機器に特有の性質を解析した結果、チャネル選択と特徴量合成という二つのアプローチが有効であることが明らかとなった。本論文では、それぞれのアプローチに対して新しいアルゴリズムを提案し、各々が従来のマイクロフォンアレイ手法よりも高い性能を持つことを示す。 これらの成果により、携帯機器における音声認識の主要な問題点が明らかとなるとともに、新規に提案したアルゴリズムの活用によって音声認識の性能が向上することが示された。さらにこれらの結果により、携帯機器における音声認識の更なる性能向上へ向けて、明確な方向付けを与えることができた。 | |
審査要旨 | 本論文では、音声認識機能を携帯機器に搭載することを目的として、その目的を達成するために扱うべき課題を明らかにし、それらに対する有効な解決手段を論じている。 第一章では、音声認識機能を携帯機器に搭載することの社会的価値を論じ、その実現形態として有効性が高いと思われるアプリケーションの種類と特性を論じている。その結果に基づき、既存の技術を活用すべき部分と新規技術を開発しなければならない部分とを明らかにしている。さらに、開発すべき新規技術の位置付けを明確化し、「コンパクトな音声認識プログラムの開発」、「低処理量の耐雑音特徴補償方式」、「複数マイクの活用による雑音環境下音声認識性能の向上」という三つの課題を解決することにより、音声認識機能を携帯機器に搭載するという目標を達成することができるという結論を導き出した。 第二章では、上記の三つの課題を解決するにあたって活用できる可能性のある従来技術を整理し、その長所と短所とを論じている。従来の音声認識研究において大きな成功を収めている隠れマルコフモデルに基づく方式の基本部分を踏襲することの意義を論じつつ、その枠組みの中で用いられる様々な手法を理論的に検討し、そのまま活用できるもの、本研究において新規に開発する際の土台となるもの、活用する必要を認めないものに分類している。これらの検討結果により、次章以降での論述にあたっての出発点を明確にすることができた。 第三章では、「コンパクトな音声認識プログラムの開発」という目標のもと、これが市場において受け入れられる水準を念頭に置き、「汎用マイクロプロセッサ用音声認識ミドルウェア」という形で具体化し、処理速度やメモリ使用量などの要求仕様を明確化した。その上で、対象となるプロセッサの特性に対して有効な高速化手法を複数導入した。それらの高速化手法の中でも特に重要であるサブベクトル量子化については、様々な条件下での処理速度と音声認識精度の間の関係を実験的に調査し、それらの結果を利用して多数のパラメータの値を最適化する方式を論じた。これらの結果により、与えられた処理速度およびメモリ使用量の目標を達成し、音声認識ミドルウェアとして市場に提供、さまざまな応用製品で活用されることとなった。 第四章では、「低処理量の耐雑音特徴補償方式」という目標を掲げている。屋外を含めた様々な環境で用いられる携帯機器においては、多種多様な雑音環境でも高い音声認識性能を維持することが重要である。一方、前章で達成した高速性・省メモリ性も保たなければならない。そこでこの目標に対して従来手法の中で有効性の高いヒストグラム同等化(HEQ)に着目し、そこで生じるオーバーフィッティングの問題を解決することによって性能を向上させるデルタケプストラム正規化(DCN)方式を新たに開発した。ここでは、DCNが従来手法の問題点を解決しうることを概念的に説明するとともに、詳細な定式化により、パラメータ値の最適化を含めた実装方法についても論じている。また、実データを用いた評価実験により、音声認識率および処理速度の両面において、この方式の有効性を確認した。 第五章では、「複数マイクの活用による雑音環境下音声認識性能の向上」という目標を掲げている。近い将来のプロセッサ性能の向上を念頭に置き、複数マイクからの音声入力を十分に活用しうるだけの処理性能が得られるという前提のもと、より困難な雑音環境ないしは対象タスクを仮定し、音声認識性能を向上させるための方式について論じている。特に、汎用ミドルウェアという提供形態の特性を鑑み、システムとしての動作安定性やプログラムの再利用可能性を保つことの重要性を述べ、そのような条件下で、チャネル選択と特徴量合成という二つのアプローチが有効であることを示した。さらに、チャネル選択というアプローチでは、前章で扱った特徴補償方式の活用が有効であること、特徴量合成というアプローチでは、各チャネルに対する認識仮説の活用が有効であることをそれぞれ示し、前者に対しては「デコーダに基づくチャネル選択(DBCS)」、後者に対しては「仮説に基づく特徴量合成(HBFC)」という具体的な新規アルゴリズムとして定式化した。これらのアルゴリズムの有効性について、実際の音声データを用いた評価実験による検証も合わせて行っている。 これらの成果により、携帯機器における音声認識の主要な問題点が明らかとなるとともに、新規に提案したアルゴリズムの活用によって音声認識の性能が向上することが示された。さらにこれらの結果により、携帯機器における音声認識の更なる性能向上へ向けて、明確な方向付けを与えることができた。 以上を要するに、本論文は博士(情報理工学)の学位請求論文として合格と認められる。 | |
UTokyo Repositoryリンク |