学位論文要旨



No 217559
著者(漢字) 加藤,恒夫
著者(英字)
著者(カナ) カトウ,ツネオ
標題(和) 携帯電話向けHMM音声認識の高精度化と高速化に関する研究
標題(洋)
報告番号 217559
報告番号 乙17559
学位授与日 2011.09.15
学位種別 論文博士
学位種類 博士(情報理工学)
学位記番号 第17559号
研究科
専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 相田,仁
 東京大学 教授 相澤,清晴
 東京大学 教授 伊庭,斉志
 東京大学 教授 峯松,信明
内容要旨 要旨を表示する

1.はじめに

携帯電話は一般コンシューマ市場への登場から20年足らずの間に,移動時用・個人用の電話から個人の携帯情報端末へと急速に進化した.1998年にメール機能が加わり,1999年には携帯インターネットの端末となった.2001年に登場した第3世代携帯電話においては,CPUの処理能力が上がり,アプリケーションの実行環境が徐々に整備されていった.2008年以降はスマートフォンが急速に普及している.

1999年以前,携帯電話は主に音声通話に用いられた.音声認識は,コールセンターの省力化,自動化や,電話オペレータの補助を目的とする応用について検討された.電話音声認識では,不特定話者音響モデルの高精度化,特に携帯電話に用いられていた低ビットレート音声コーデックによる音声歪みに対する認識精度の向上が課題であった.

1999年,携帯インターネットが出現すると,急速に普及した.携帯電話のテンキーは電話番号の入力だけでなく文字入力にも多く用いられるようになった.テンキーによる文字入力は慣れを必要としたが,当時テンキーに替わる音声入力機能は存在しなかった.そこで携帯電話とサーバ型音声認識装置が連携して認識処理を行う分散型音声認識システムを開発した.分散型音声認識システムでは,認識結果を画面に表示できるため,ユーザは即座に認識結果を確認することができ,部分的に修正することも容易になった.

2001年,第3世代携帯電話が登場し,CPUの高速化,搭載メモリの増大ととともにアプリケーション実行環境が徐々に整った.携帯電話には様々な機能が加わり,機能の呼び出し方も複雑化していった.携帯電話機能の呼び出しやアドレス帳の検索に利用できるローカル音声認識エンジンが必要とされた.ここでは認識精度の劣化なく処理時間を短縮する方式が課題となった.

本論文は,以上の音声認識の実用化に必要となった音声認識の高精度化と高速化に関する提案を纏めている.

2.混合分布HMMにおける決定木に基づく状態クラスタリング

音響モデルの学習において常に問題となるのは,モデルの複雑さと,モデルパラメータの推定精度のバランスである.音素の連鎖の種類などにより学習データ量に多寡があることは避けられないため,HMM状態などの間でモデルパラメータの共有化を行うことが多い.決定木に基づく状態クラスタリングは,数万種類にも及ぶ音素コンテキスト依存モデルのHMM状態をまず音素毎に集め,音素コンテキストに関する二者択一の質問を繰り返してトップダウンにクラスタリングすることで,あらゆる音素コンテキストに対してHMM状態を割り当てる状態共有化手法である.学習データ中に現れない未知の音素コンテキスト依存モデルに対しても,HMM状態が割り当てられるという優れた特徴を有している.

音素コンテキスト依存モデルの標準的な学習プロセスにも採用されている決定木に基づく状態クラスタリングは,従来,単一の正規分布で表現される状態共有なしモデルを対象としていた.しかし,音声認識に実際に用いられるのは混合分布HMMであり,表現能力が不足する単一分布HMMは用いられない.単一分布HMMに対して決定木に基づく状態クラスタリングを行い,その後Baum-Welch再推定と分布数の倍増操作とを繰り返す必要があるため,最終的な混合分布状態共有モデルを獲得するまでの学習のステップが多く,時間がかかるという問題もあった.

そこで,決定木に基づく状態クラスタリングも,混合分布HMMを取り扱えるように拡張した.クラスタリング途中のノードもすべて混合分布で表現することで,共有構造の改良を図っている.音節タイプライタと連続単語認識で評価したところ,提案手法による音響モデルは,決定木に基づく状態クラスタリングに引き続きBaum-Welch再推定を繰り返した後でも,従来手法による音響モデルよりも認識精度が優れていた.また,提案手法は状態クラスタリングの結果として混合分布HMMを出力するため,従来手法に比べて学習時間を大幅に削減することができる.

3.コーデック適応音響モデルおよび雑音モデルによる認識精度の改善

電話音声認識システムでは,2000年当時,携帯電話サービス毎に異なる低ビットレート音声コーデックに特有の音声歪みと,屋外使用によって多く混入する非定常な雑音は,認識精度の大きな要因となっていた.回線特性のばらつきを抑える代表的な手法として,ケプストラム平均値正規化(CMN)があるが,線形時不変を前提とするケプストラム平均値正規化では,これらの問題に対処することはできない.そこで,音声コーデック毎に不特定話者音声モデルと非定常雑音モデルを用意し,これらを選択的に用いる手法を提案した.

携帯電話がよく用いられる雑音環境で収録した携帯電話音声を用いた3,000単語の孤立単語認識タスクにおいて,コーデック適応音声モデルと雑音モデルの導入により音声区間の境界推定精度が大幅に改善され,単語誤り率はコーデック適応音声モデルにより約10%,コーデック適応雑音モデルの導入によってさらに約15%削減された.

4.木構造辞書における到達可能単語数を利用した探索高速化

サーバ型の音声認識ではより多くの語彙を含む大規模な言語モデルで認識を行うため,ローカル型の音声認識では限られたリソースでできるだけ早く認識結果を提示するために,高速な音声認識アルゴリズムは常に必要とされている.

HMMに基づく音声認識では,探索空間は,文法や確率的言語モデルで規定される単語レベルのネットワークと,文法や確率的言語モデルを構成する単語をHMMの状態系列で表すHMM状態系列のネットワークの2階層で表現される.後者は,探索を効率化するために異なる単語間で単語の先頭から共通するHMM状態系列をマージして木構造辞書とする.認識処理中は,様々な単語の系列を検証するために,多数の仮説が並行して木構造辞書上を探索する.探索中の仮説の総数が際限なく増えないようにするために,毎時刻フレームに仮説の枝刈りを行う.

確率的言語モデルに基づくディクテーションタスクの場合,確率的言語モデルの言語確率を木構造辞書の探索にできるだけ早く反映させる言語モデル先読みの効果が非常に大きく,認識精度を最大化するのに必要な仮説数を大幅に削減し,高速な探索を可能にしている.文法に基づく認識はディクテーションに比べて小規模なタスクになることが多いが,それでも語彙が増大すると認識精度を最大化するのに必要な仮説数は増大する.言語確率を用いないため,言語モデル先読みは適用できない.

そこで,木構造辞書のルートに近いHMM状態にある少数の仮説は様々な単語に発展する可能性があるので,リーフに近いHMM状態にある多数の仮説よりも重要度が高く,仮説枝刈りにおいて優遇されるべきという考えに基づき,従来のすべての仮説を平等に取り扱う仮説枝刈りに替わり,仮説毎に木構造辞書における到達可能単語数を考慮して枝刈りの厳しさを連続的に変化させる方法を提案した.すなわち,ルートに近いHMM状態にある少数の仮説に対しては枝刈りの条件を甘く,リーフに近い状態にある多数の仮説に対しては枝刈りの条件を厳しくすることで,認識精度を落とさずに枝刈りの効率を上げる.

提案手法を,孤立単語認識タスク,文法に基づく短文認識タスク,確率的言語モデルに基づく連続音声認識タスクで評価したところ,すべてのタスクにおいて認識精度の最大値を悪化させることなく必要な仮説数を削減し,認識処理を高速化した.特に,文法に基づく短文認識タスクでは確率的言語モデルの先読みを適用できないため,提案手法の高速化効果は大きく,従来の1/5以下の処理時間で従来の認識精度の最大値を超える認識精度に到達している.

5.音声区間検出の情報と木構造辞書における深さを利用した探索高速化

前章の提案では,木構造辞書上のビーム探索において,仮説の尤度に到達可能単語数に応じた時不変の報酬を加算することで探索効率を改善した.この報酬を時変にして制御することでさらなる探索の効率化が可能になるか検証するために仮説数の時間変動を調査した.

仮説数の時間変動を調査すると,音声の始端が検出される前の無音区間において仮説数が爆発的に増大することがわかった.このとき仮説は様々な単語の深い位置まで拡がっていた.そこで,音声始端検出前の仮説の拡がりを抑えるために,音声区間検出の情報を用いて木構造辞書の深さに応じた一時的なペナルティを仮説の累積尤度に加算してビーム探索を行う手法を提案した.探索対象の全区間に対する音声区間検出前の無音区間の割合が大きい孤立単語認識タスクでは,認識処理時間を7~10%短縮することができた.

6.おわりに

筆者は,音声認識技術を携帯電話向けに実用化するために,電話音声認識,分散型音声認識システム,ローカル音声認識エンジンの開発に携わり,取り組みの中で必要となった音響モデルの精度改善手法と音声認識エンジンの高速化手法を考案した.

提案手法を適用した音声認識サーバをベースにして,第3世代携帯電話向けの分散型音声認識システムを開発した.2006年に同システムは携帯電話を端末とする世界初の分散型音声認識システムとして実用化を果たした.現在まで携帯電話の主要なアプリケーションである乗換検索や目的地検索に利用されている.また,その後に開発したローカル音声認識エンジンはクロック周波数100MHz程度の第3世代携帯電話上で,約1万語までの文法に基づく音声認識をリアルタイムで実行できる.同エンジンは第3世代携帯電話の高齢者向けモデル4機種に搭載されている.

審査要旨 要旨を表示する

本論文は「携帯電話向けHMM音声認識の高精度化と高速化に関する研究」と題し、携帯電話による音声認識を対象として、HMM音素モデルの高度化、ビーム探索の高速化などを実現したもので、全8章からなる。

第1章は「序論」であって、携帯電話端末を用いた音声認識の歴史を概観した上で、分散型音声認識システム、ローカル音声認識エンジンの高精度化と高速化を達成する際に必要な項目を整理し、本論文の意義、目的と提案手法の概要を述べている。また章の構成が示されている。

第2章は「HMMに基づく音声認識」と題し、HMM音素モデルとN-gram言語モデルに基づく音声認識手法を概説した上で、音素モデルの高度化と探索の高速化に向けた従来の試みを整理し、本論文の提案手法の導入としている。

第3章は「混合分布HMMにおける決定木に基づく状態クラスタリング」と題し、音素HMMの学習コーパスサイズの制約に対処する手法として一般的な決定木に基づく状態クラスタリングについて述べ、本章での提案手法が、リーフノードの出力確率密度分布の単一正規分布表現から混合正規分布表現への拡張であるとしている。連結学習を含めた評価として、音節タイプライタあるいは単語連続の認識実験を行い、従来の単一正規分布表現による手法と比較して、提案手法が認識精度、演算時間の双方で優れているとしている。

第4章は「コーデック適応音響モデルおよび雑音モデルによる認識精度の改善」と題し、携帯電話のコーデックによる音声歪みと背景雑音に対処する手法として、コーデック毎に音声モデルと非定常雑音モデルを用意し、最尤基準に従ってモデル選択を行うものを開発している。孤立単語音声認識実験を行い、単語認識率の大幅な向上を達成している。

第5章は「木構造辞書における到達可能単語数を利用した探索高速化」と題し、木構造辞書での到達可能単語数がノードからリーフに向けて単調減少することに着目した枝刈り(ビーム探索)手法を提案している。到達可能単語数に従って、仮説の尤度に一定値を加算しするもので、孤立単語音声認識、短文認識、メール読み取りの各場合について認識実験を行い、演算時間の大幅な短縮を達成できることを示している。

第6章は「音声区間検出の情報と木構造辞書における深さを利用した探索高速化」と題し、前章での提案に加え、音声区間の始端(の短時間前)部分の仮説の広がりを、"非音声らしさ"によって絞り込む手法を提案している。孤立単語音声認識で1割弱の演算時間の短縮を達成している。

第7章は「実用システムの構築」と題し、3~6章での提案を実装した、乗換検索などの種々のアプリケーションについての概要と性能評価実験について、まとめている。

第8章は、「結論」であって、各章の概要を述べた上で、今後の課題・展望を整理している。

以上を要するに、本論文は、携帯電話を用いた音声認識を対象として、混合分布HMMの状態クラスタリング手法、コーデックに対応した音響・雑音モデルの選択手法、木構造辞書における探索高速化手法などを開発して認識の高精度化と高速化を達成するとともに、音声認識システムとして実用化したものであって、音声認識の発展に大きく寄与したものであり、電子情報学に貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク