学位論文要旨



No 113851
著者(漢字) 江,輝
著者(英字) JIANG,Hui
著者(カナ) ジャン,フィ
標題(和) 音声自動認識における頑健な決定規則に関する研究
標題(洋) A Study on Robust Decision Rules in Automatic Speech Recognition
報告番号 113851
報告番号 甲13851
学位授与日 1998.09.30
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4248号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 羽鳥,光俊
 東京大学 教授 青山,友紀
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 助教授 相田,仁
内容要旨

 この10年、音声自動認識(ASR)の進歩は目を見張るものがあり、音声認識技術が一般生活に利用されるまでになっている。しかしながら、音声認識システムを実環境で利用するためには、音響環境あるいは応用環境を制御し得ない状況での動作が要求される。この様な場合、学習環境と認識環境の異なりが大きいということになり、その結果、大幅な認識性能の低下が生じ、システムを実際に利用することが出来ない。この様な観点から、頑健な音声認識野の分野で種々のタイプの異なりを対象とした非常に多くの研究がなされている。現在、頑健な音声認識では、(特徴)変換による補償/適応とベイズ学習/適応が主要な技術として研究されている。これらは、程度の差こそあれ、いづれも、異なりに関して事前に得られる知識を利用して、異なりを補償あるいは縮小しようとするものである。しかしながら、実際には音声信号の変動のもとに関する知識が得られない場合が一般的であり、システム開発のための学習データと利用環境での認識データとの間の特徴の異なりを見出すに足る十分な情報は得られないのが普通である。

 本論文では、音声認識を統計的な決定理論として捉えた上で、頑健な決定規則を構築する。この様な決定規則に基づく手法は、本質的に、頑健な認識システムにおいて採用する仮説のいかんにかかわらず有効であるという特長を有する。この手法では、異なりを直接縮小するのではなく、認識が異なりに頑健になる様に、認識結果を決定する際の決定規則を選択するという点で、従来の補償/適応手法と決定的に異なる。従って、異なりを生ずる歪み源に関しての精密な推定をする必要がなく、この手法は頑健な音声認識の有効な手法であると考えられる。本論文では、頑健な決定理論として、ベイズ予測分類(Bayesian Predictive Classification,BPC)とminimax規則に基づくもの2つを提案し、連続分布隠れマルコフモデル(CDHMM)の枠組みの認識に適用した上で、実際に、白色雑尾付加をはじめとする種々の異なりのもとで認識実験を行う。また、VBPCの枠組みにおいて、認識環境におけるデータデータを利用してHMMパラメータ推定し直す適応手法も提案し、有効性の実証実験を行う。

1.ビタビベイズ予測分類とモデル補償に基づくベイズ予測(BP-MC)

 CDHMMに基づく頑健な音声認識において、未知の異なりに対処するベイズ予測分類規則が提案されている。ここでは、異なりによるHMMのモデルパラメータ空間での広がりを考慮した尤度計算を行うが、一般にこの計算をそのまま行うことは現実的でなく、何らかの近似計算が必要である。ここでは、ベイズ予測密度の計算でビタビ手法による近似を行う、ビタビベイズ予測分類(VBPC)を提案する。認識対象の発声X(観測系列)が与えられたとき、認識対象単位(単語など)W、CDHMMのパラメータセット、事前確率密度分布(pdf)p(,W)、ハイパーパラメータとして、VBPC決定規則では、認識結果Wは下記の式で与えられる。

 

 ここで、sは隠れた状態遷移系列であり、|は観測系列Xに対応する隠れた混合分布ラベルの系列である。このVBPC決定規則は次の様な逐次探索アルゴリズムによって実現できる。

 ・各時点において、総ての有効と考えられる部分パスについて音響モデルの尤度を計算する。

 ・パスのネットワーク(トレリス)の各ノードについて尤度最大のもので部分パスを代表させ、統合する。

 ・選択したパスをたどり、それについて尤度を再計算する。

 ・上記の手順を発話の最後になるまで繰り返す。

 さらに、この様に決定規則を直接変更する替わりに、ベイズ予測による頑健な音声認識の枠組みでベイズ予測に基づくモデル補償(BP-MC)を行う簡単な手法を提案する。BP-MCでは、CDHMMの混合ガウス分布の個々の成分に対するベイズ予測分布を、成分の補償した分布とみなし、これらの補償分布を利用してMAP決定規則を適用するものである。基本的な決定規則に変更はなく、従って、BP-MCは、通常のPlug-in-MAP規則に基づくビタビアルゴリズムが適用可能な総ての場合に対して簡単に拡張可能という特長を有する。

 事前分布の1つの簡単なものとして、いわゆるless-informative事前分布をVBPCとBP-MCに採用して認識実験を行った。性能比較の為に、従来のビタビ法(Plug-in-MAP規則に基づくビタビアルゴリズム)による認識も行う。認識対象は日本語孤立数字音声とTIで用意された英語連続数字音声(TIDIGITS)であり、学習環境と認識環境の異なりとしては、1)白色ガウス雑音(GWN)付加、2)実環境で収録された25種の過渡的雑音の内の1つの付加、3)性別の違いを考慮した。実験結果から、学習環境と認識環境の異なりが大きい場合、less-informative事前分布を提案手法に適用すると、頑健性がかなり向上することが示された。1例として、図1に日本語孤立数字音声に種々のSNRレベルで白色ガウス雑音を付加した場合の結果を示す。

2.有限混合事前分布密度を用いた順次ベイズ学習に基づくVBPCの改良

 以上に示した様に、less-informative事前分布に基づくVBPCあるいはBP-MCは、環境の異なりがある場合に有効ではあるものの、その性能は、異なりがない場合に従来のPlug-in-MAP法で得られる性能と比較すると、なお、相当に劣るものである。これは、主としてless-informative事前分布が実態と乖離していることによる。そこで、我々は、上記のVBPCを新しい事前分布、すなわちCDHMMの完全データ密度分布とその混合に対する自然共役事前確率密度関数の一種、に拡張する。図2に示す様に、認識環境のデータが与えられたとき、順次ベイズ学習の考え方によって、漸近的にVBPCの事前確率密度関数を更新する。この様に、認識過程を通じ、VBPCの性能を連続的に向上させることが可能である。

 種々のタイプの未知の異なりをよりよく表現するために、VBPCにおいて事前確率密度関数の有限個の分布による混合表現を採用する。この様な枠組みで、有限混合分布による事前、事後密度の近似に基づき、CDHMMの順次ベイズ学習をon-lineで行うアルゴリズムを提案する。この方法では図3に示す様に、CDHMMの初期事前密度を、CDHMMの完全データ密度自然共役事前確率関数の有限個の混合と仮定する。この様にして、新しい観測データ(適応データ)に対し、Nベストの考え方により、真の事後確率密度関数を有限個の混合密度で近似する。密度の選択は、対応するベイズ予測密度に対する寄与の観点から、真の事後密度において最も重要な順に行う。提案手法の有効性を、日本語孤立数字音声に対する不特定話者認識実験によって確認した。異なりとしては、1)白色ガウス雑音付加、2)性別の違いを考慮した。

3.Minimax探索による頑健な連続音声認識

 頑健な決定規則として、BPCとともにminimax規則がある。ここでは、これをCDHMM音声認識に適用する。音声認識で既に提案されているminimax規則として、Nベスト再スコアリングなしには連続音声への適応が不可能な2つのものを取り上げ、それをCDHMMによる連続音声認識に拡張した新しいminimax規則による探索アルゴリズムを提案する。Minimax探索アルゴリズムはminimax規則と通常のビタビ探索アルゴリズムの統合と捉えることが可能であり、下式で表現される。

 

 ここで、()はCDHMMのパラメータの(不確かな)不確かな近傍を表わす。

 Minimax探索では、minimax規則における最も確からしくないモデルパラメータを、個々の有効な部分パスについて各時点あたり1回の逐次近似で推定する。次に、推定したパラメータを用いて部分パスのスコアを再計算する。この再計算されたスコアをもとに、通常のビタビ探索と同じ手順によって、有効な部分パス総てについてネットワーク上を逆方向にたどる。通常のビタビアルゴリズムと比較し、minimax探索では、探索過程において個々の有効な部分パスについてスコアを再計算するという余分の手間が必要となる。しかしながら、ネットワークの規模が大きくなければ、計算負荷の増加は許容範囲におさまる。

 提案したminimax探索アルゴリズムの実現可能性と有効性を調べるために、種々の学習/認識条件において、日本語孤立数字音声と英語連続数字音声を対象とした不特定話者認識実験を行い、既存の方式と比較した。学習と認識時における環境の異なりとしては、種々のSNRレベルでの白色ガウス雑音付加を考慮した。認識実験結果より、1)孤立数字音声の場合、既に提案されたminimax規則に基づく2つの手法よりも格段に優れる、2)連続数字音声(TIDIGITS)の場合、表1に示された様に通常のPlug-in-MAPによるビタビ探索よりもかなり優れる、ことが分かった。なお、表において、それぞれ、Strは連続数字レベルでの正解率、Wd-Cは単語正解率、Wd-Aは単語精度(Wd-Cにさらに挿入誤りを考慮)、Delは脱落誤り、Subは置換誤り、Insは挿入誤り、である。

 論文では、さらに、提案した総ての手法について、環境の異なりに関する知識や適応データが得られないという条件のもとで、既に存在する頑健な認識手法(統計的照合手法、疑ベイズ予測分類(QBPC)他)と比較している。その結果、提案手法の有効性が示された。

図1.VBPC、BP-MCとPlug-in-MAPの性能(単語認識率,%表示)比較。認識対象は日本語孤立数字音声で、認識音声は学習音声に白色ガウス雑音を重畳させたものを用いた。図2.オンラインベイズ学習VBPCのブロック図。図3.真の事前/事後確率密度関数の有限個の分布の混合による近似に基づく順次ベイズ学習。Nベストの考え方を利用する。表1.提案したminimax探索とPlug-in-MAPによるビタビ探索の性能(%表示)比較。対象はTIDIGITSで白色ガウス雑音付加の場合。
審査要旨

 本論文は「A Study on Robust Decision Rules in Automatic Speech Recognition」と題し、学習と認識での諸条件の異なりにより認識率が低下するという現在最も問題とされている課題に取り組み、従来の隠れマルコフモデルによる認識手法を見直すことによって、この様な異なりに頑健な新しい手法を開発したものであって、全7章からなり、英語で記述されている。

 第1章は「Introduction」であって、本論文の背景と目的を述べている。まず、音声認識で問題となっている要因として、学習環境と認識環境の違いによる認識率の低下をあげ、それに対して行われている種々の問題設定とアプローチを例を挙げて概説している。その上で、本論文で取り扱う問題を、この様な違いを考慮した認識の決定理論であるとし、ベイズ予測分類とMinimax法に基づいて新しい方式を開発するとしている。さらに、本論文の各章の位置付けを述べている。

 第2章は「Decision Rules for Speech Recognition and Their Robustness」と題して、まず、学習環境と認識環境の違いがある場合の決定理論としてのOptimal MAPを位置付け、違いについての知識が得られない場合に確率分布を近似したplug-in MAPとなることを示した上で、違いによる不確定性をモデル化する手法として、HMMパラメータの分布をモデル化するベイズ予測分類と、観測特徴ベクトルに対する認識単位の確率をモデル化するMinimax法を説明し、続く章の導入としている。

 第3章は「Robust Speech Recognition Based on Bayesian Predictive Approach」と題して、ベイズ予測分類に基づく頑健な認識手法の提案を行っている。連続分布HMMの尤度関数は、本来、あらゆる状態経路と混合分布成分について総和を取って計算するが、これをそのままベイズ予測分類に用いると認識単位に対する観測特徴ベクトルの確率密度分布を計算することは困難である。尤度最大の経路と分布で代表させるViterbi手法を適用することによってこれを可能とするViterbi Bayesian Predictive Classification(VBPC)を提案し、それを反復的に計算するアルゴリズムを開発した。また、連続分布HMMの混合分布成分を直接ベイズ予測密度によって推定し、MAP決定規則を利用するBP-MC法を提案した。次に、提案手法の評価のために、環境の違いを白色雑音とした場合の認識実験を孤立数字音声と連続数字音声とについて行い、VBPCとBP-MCがPlug-in MAP法に比較して優れていることを示している。さらに、不確定性によるモデルパラメータの分布の範囲と認識性能との関係を調べ、比較的分布によらない結果が得られるとしている。環境の違いとして種々の実環境下雑音、性差を考慮した認識実験も行い、同様に提案手法が有効ではあるものの、その程度は低下するとしている。これは、違いに特徴があるためであると考察し、次章の学習の必要性を指摘している。

 第4章は「Improviog Viterbi Bayesian Predictive Classification via Sequential Bayesian Learning」と題して、環境の違いによるHMMパラメータの変動の事前確率分布を正規分布の集合として近似し、認識環境データ毎にそれを推定し直す手法を開発した上で、VBPCの決定理論に組込んでいる。推定の際に、分布の数がべき乗で増大するため、通常では計算時間が爆発してしまうが、これを避けるために、各推定毎に認識に有効な分布を選択する手法を開発している。環境の違いが白色雑音あるいは性差である場合について数字音声の認識実験を行い、Plug-in MAPで適応を行った場合と比較し、その有効性を示している。選択する分布の数についても言及し、違いに特徴がある性差のような場合には分布の数がある程度必要との結論を得ている。

 第5章は「Minimax Search for Robust Continuous Speech Recognition」と題して、Minimax法に関する2つの先行研究を紹介した上で、連続音声への拡張が困難と言う問題点があることを指摘している。これに対し、Viterbiサーチを行うことで、反復的な最適経路探索アルゴリズムを開発し、連続音声への拡張が可能であるとしている。白色雑音付加の場合の離散数字音声について有効性を示すとともに、連続数字音声の認識実験でPlag-in MAPに対する優位性を示している。

 第6章は「A Comparative Study with Other Robust Methods」と題して、環境の違いに対処する種々の手法との性能比較を行っている。具体的には、違いを特徴量空間あるいはモデル空間で考慮するStochastic Matching、HMMパラメータの個々のパラメータの広がりを正規分布で近似するQuasi Bayesian Predictive Classification、第5章での2つのMinimax手法等との比較を、白色雑音付加と性差の場合について行い、提案方式の有効性を示している。また、特徴量レベルでの違いの補償としてCepstral Mean Normalizationを行った場合にも同様に有効であるとしている。

 第7章は「Conclusions」であって、本研究で得られた成果を要約し、将来の課題について言及している。特に、BPCにおける事前確率密度の適切な予測、あるいはMinimax法における不確定な近傍の適切な予測が重要であるとしている。

 以上を要するに、本論文は、認識環境が学習環境と異なる場合にも有効な認識決定理論の実現可能な定式化を示し、それをもとに頑健な認識手法を開発したものであって、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク