学位論文要旨



No 216083
著者(漢字) 磯,健一
著者(英字)
著者(カナ) イソ,ケンイチ
標題(和) 音声認識の高度化のための高精度,コンパクトな音響モデルの研究
標題(洋)
報告番号 216083
報告番号 乙16083
学位授与日 2003.09.15
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第16083号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 石塚,満
 東京大学 教授 相田,仁
 東京大学 助教授 森川,博之
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

 近年,コンピュータの演算・記憶能力の増大と,大規模に収集された音声データベースの整備を追い風として,隠れマルコフモデル(Hidden Markov Model,HMM)を用いた統計的な音声認識技術の研究開発が精力的に進められている.HMMを用いると,大規模音声データベースから不特定話者の音声に関する統計的なモデルを自動学習することができる.これにより以前には困難であった不特定話者の大語彙音声認識が実験室環境で動作するようになってきた.しかし音声認識の本格的な実用化に向けてはまだ多くの課題が残されている.すなわち実用場面で十分な認識精度を実現するためには各部の高精度化や,話者・環境変化に対する頑健性,少ないCPU・メモリリソースで動作するためのコンパクト化,などが重要な研究課題である.大語彙連続音声認識の認識精度は,ていねいで協力的な発声に対して9割を超えるレベルに到達しつつあるが,多くのアプリケーションにおいて必ずしもまだ十分な精度ではない.話者による性能のバラツキも大きく,マイクロホン不一致,周囲雑音・残響などにも敏感である.また高速CPUと大容量メモリを搭載したPCでは動作可能であるが,携帯端末や家電,自動車などに組み込むことは容易ではない.このような背景の下で,本研究ではとくに音響モデルに焦点をあてて,これら3つの課題(高精度化,話者適応化,コンパクト化)について検討を行った.

 音声認識精度を改善するための第1の課題として,音声時系列パターンのモデルである音響モデル(HMM)の高精度化を試みた.HMMは音声を定常的な音声区間(状態とよぶ)の連鎖としてモデル化しており,同一の状態内では,音声の特徴ベクトルはお互いに独立に同一の確率分布から出力されたものと仮定されている.すなわち時間的に隣り合う音声特徴ベクトルのあいだの相関がモデルには考慮されていない.現実の音声パターンは,調音結合に代表されるように隣接する特徴ベクトルのあいだには強い相関が存在している.より高い精度の音声認識を実現するためには,このような音声パターンの動的な性質(隣接する特徴ベクトルの相関など)を適切に音響モデルに取り入れることが重要である.そこで多層パーセプトロンによる音声特徴ベクトル時系列の非線形予測を用いたニューラル予測モデル(Neural Prediction Model,NPM)を提案し,その認識・学習アルゴリズムを定式化した.不特定話者離散数字認識実験によって,従来方式であるDPマッチングや線形予測に比べて優れていることを示した.また多層パーセプトロンをパターン識別に用いたDNN(Dynamic Programming Neural Network)に比べても良好な認識性能が得られることを確認し,多層パーセプトロンをパターン予測に用いることの有効性を示した.さらに特定話者大語彙単語認識に適用するために,単語より小さな認識単位である半音節単位のNPMを定式化し,その調音結合に対する追従性を高めるために後ろ向き予測機能を追加し,その効果を確認した.またNPMでは状態ごとに別々の予測器を用いてモデルを構成しているが,それらを1つに共有化して,駆動力ベクトルによって切り替える方式も検討し,英語アルファベット認識によってその効果を検証した.さらにその学習アルゴリズムに識別学習(事後確率最大化学習)を導入して性能改善を確認した.NPMは混合ガウス分布HMMとして解釈すると,HMMの各ガウス分布平均ベクトルが定数値ではなく,予測器により入力音声に対応して時々刻々と変化するモデルに相当し,HMMに局所的時間相関の表現能力を加えるという初期の目標に対して一つの解決策を与えることができた.

 第2の課題として不特定話者HMMの新しい話者への適応化(話者適応化)に関する研究を行った.不特定話者HMMの学習に用いられる大規模音声データベースは必ずしも想定されるすべてのパターン変動を含んでいるわけではない.話者の変動や周囲雑音,マイクロホンや回線などの伝送特性の変動などは,きわめて多岐にわたるため,そのすべてを音声データベースに含めることは現実的には不可能である.そこで代表的なパターンをできるだけ多く集めて音声データベースを構築し,それらを用いて不特定話者HMMを学習している.そして音声認識を使用する場面において,新たに少量の音声データを集めて,不特定話者HMMをその場面に適応化させる適応化技術の重要性が増している.現在広く用いられている話者適応化技術(MLLR法やMAP法)では,HMMのモデルパラメータに対して不特定話者HMMから得られる知見に基づいて制約を導入して,新しい話者の少量発声からでも安定にパラメータが推定できるようにしている.しかしこれらの手法では,大規模な音声データベースに含まれている話者変動の平均的な知見のみを利用しており,多数の個別話者の事例は有効に活用されていない.より少ない発声を用いて安定・高精度に新話者に適応化する話者適応化技術を実現するためには,大規模音声データベースを平均的な不特定話者HMMの学習に用いるだけでなく,そのデータベースに含まれている多数の話者変動の事例を統計的にモデル化して適応化方式に取り入れることが重要である.そこで大規模音声データベース中の話者変動の事例をモデル化した話者適応化方式である「EigenVoice法」と,話者適応化用音声データの分量に応じて適応化すべきモデルパラメータ数を自律的に制御する「自律的モデル複雑度制御法(AMCC法)」を融合した新しい話者適応化方式として階層的EigenVoice法(HEV法)を提案した.不特定話者の混合ガウス分布HMMのガウス分布を木構造にクラスタリングし,大規模な音声データベースから学習した多数の特定話者HMMから得られる話者変動事例を用いて,木構造の各ノードごとに話者変動の固有ベクトルを自動推定する学習アルゴリズムを定式化した.また話者適応化に用いることができる発声量に応じて木構造のノードを自律的に選択しながら話者適応を行う適応アルゴリズムとして最尤推定に基づくMLED法と推定パラメータの事前分布を用いたMAPED法を定式化した.HMMを用いた日本語大語彙連続音声認識(語彙8万語ディクテーション)に適用して,適応化用の5文発声で,従来法(MLLR法やAMCC法)の50文発声に相当する認識性能が得られることを確認し,話者変動事例知識活用の有効性を示すことができた.

 第3の課題として,大語彙音声認識の実用化に向けたコンパクト化の検討を行った.不特定話者の大語彙連続音声認識を可能にするHMMは,大量のモデルパラメータの格納と,それらを用いた大規模な演算処理を必要とする.このようなHMMを携帯情報端末や携帯電話などに組み込んで動作させるためには,HMMモデルパラメータのコンパクトな表現方法や,それらを用いた高速なパターンマッチング方法の開発が必須と考えられる.そこでHMMによる不特定話者大語彙連続音声認識(ディクテーション)を実用化に向けてコンパクト化する方式として,音響モデルのコンパクト化方式(MDL基準による混合ガウス分布数削減,ガウス分布対角共分散行列の共有化,ガウス分布木構造化による高速確率計算)の有効性を評価した.それらを,言語モデルのコンパクト化方式(クラス化),サーチのコンパクト化方式(音素木構造辞書の動的なトライフォン展開,ガベージコレクション,言語スコア計算再利用法)などと統合して日本語大語彙ディクテーション(語彙5000語)を市販PDA上に実装し,メモリ使用量約4Mbyteで実時間応答(単語誤り率8.4%)することを確認した.

 以上のように本研究により,HMMによる音声認識方式の新たな研究方向として,非線形予測の導入による高精度化,話者変動事例のモデル化による頑健性強化,の可能性が開かれた.また現在のHMMによる不特定話者大語彙連続音声認識技術の一つの到達点として,それらをメモリ使用量や演算量に制約があるPDA上で実用的な性能で動作させる実装アルゴリズムを示すことができた.

審査要旨 要旨を表示する

 本論文は「音声認識の高度化のための高精度,コンパクトな音響モデルの研究」と題し、音声認識の音響モデルとしての隠れマルコフモデル(HMM)の高度化を、特徴量の時間的相関、変動の統計的性質の観点から達成するとともに、認識システムの実用化を、音響モデル、言語モデルの記述の効率的な簡素化により達成したものであって、全6章からなる。

 第1章は「序論」であって、まず、音声認識システムの構成と問題点を概観した上で、本論文では、特に音響モデルについて焦点を当て、時間情報の記述能力の向上、事前知識を用いた効率的・効果的な話者適応、システム実装に向けたモデルパラメータのコンパクト化と高速パターン照合の観点から行った研究に関して記述するとしている。最後に、第2章以降の論文の構成を述べている。

 第2章は「音声認識の基礎」と題し、HMMとそれを用いた認識アルゴリズム、ニューラスネットワークの学習手法、HMMの話者適応化手法など、本論文を理解する上で必須となる音声認識に関する諸事項・手法について整理して記述している。

 第3章は「音声の動的性質をモデル化した音声認識方式」と題し、まず、HMMの問題点として、各状態内で音声の特徴ベクトルが独立にガウス分布に従って分布するという仮定があることを指摘し、それに対する従来の手法として、セグメントモデルと回帰特徴量を取り上げ、それらが音声における隣接した特徴ベクトル間の非線形な相関を表現しきれていないことを示している。次に、過去の時点の特徴と現在の特徴との非線形な相関をニューラルネットワークで表現するニューラル予測モデル(NPM)を提案し、その学習・認識アルゴリズム等を開発している。不特定話者が発声した離散数字音声について実験を行い、動的計画手法と比較して、大幅な認識率の向上が可能なことを示している。さらに、半音節に対応したNPMを連結することで単語音声認識実験を行い、良好な結果を得ている。最後に、ニューラル予測によりガウス分布の平均ベクトルを更新するニューラル予測HMMを提案して、認識・学習アルゴリズムを開発し、英語アルファベット音声認識で従来のHMM等と比較した優秀性を示している。

 第4章は「多数話者の事前知識を用いた話者適応化方式」と題し、まず、現在の有効な話者適応手法であるMAP法、MLLR法について、推定するパラメータの自由度が固定されている点、不特定話者音声コーパスに含まれている話者変動情報の有効利用がなされていない点に問題があることを指摘した上で、それらを同時に解決する手法として、Eigen-Voice(EV)法に自律的モデル複雑度制御法を導入した階層的EV(HEV)法を提案している。これは、HMMパラメータ空間を階層的木構造クラスタリングにより複数クラスタに分解した後、クラスタ毎に主成分分析して直交基底を抽出して次元削減することに基づく。次に、不特定話者音声コーパスから固有ベクトルを学習して、HEV手法で話者適応を行う手法を開発している。大語彙連続音声認識実験を行って、従来のMLLR法等比較し、5文程度の適応音声で50文程度の適応効果が得られることを示している。

 第5章は「音声認識の実用化」と題して、まず、大語彙連続音声認識を携帯情報端末などの携帯機器で実現する上で、動作に必要なメモリ量の削減、演算量の低減が不可欠なことを指摘している。その上で、音響モデルのコンパクト化として、MDL基準を用いた混合ガウス分布数の削減、ガウス分布の対角共分散行列の共有化、木構造を利用した効率的な出力確率計算の各手法を提案して、認識実験を行い、認識率をほとんど低下させること無しに、音響モデルのパラメータ数を1/3程度に、演算量を1/10以下に低減可能なことを示している。次に、言語モデルについて、クラスbi-gramに高頻度単語bi-gramを組み合わせることを提案するとともに、言語スコアの計算結果を保存して再利用するなどの探索の効率化を行っている。最後に、以上の手法を取り入れ、旅行会話をタスクとした連続音声認識モジュールを開発し、95%程度の単語正解精度を得ている。

 第6章は「結論」であって、本研究で得られた成果を要約し、将来の課題について述べている。

 以上を要するに、本論文は、現在の大語彙連続音声認識で問題となっている、認識精度の向上、認識対象への適応、認識システムのコンパクト化と認識時間の短縮に向けて、特徴量の時間的変動を音響モデル(HMM)に明示的に導入したニューラル予測モデル、音響コーパス中の話者変動の記述とそれによる音響モデルの効率的話者適応手法、MDL基準を用いた混合ガウス分布数削減手法等、を提案してその有効性を立証したものであって、音声認識の高度化、実用化に大きく寄与したものであり、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク