学位論文要旨



No 129089
著者(漢字) 鈴木,雅之
著者(英字)
著者(カナ) スズキ,マサユキ
標題(和) 背景雑音と話者の違いに頑健な音声認識
標題(洋)
報告番号 129089
報告番号 甲29089
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7980号
研究科 工学系研究科
専攻 電気系工学専攻
論文審査委員 主査: 東京大学 教授 峯松,信明
 東京大学 教授 石塚,満
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 近山,隆
 東京大学 教授 相田,仁
 東京大学 准教授 鶴岡,慶雅
内容要旨 要旨を表示する

音声認識は様々なシステムの要素技術として利用されている.例えば,カーナビシステム,スマートフォンの音声対話システム,企業のコールセンタにおける電話自動応対システムなど,その応用範囲は多岐に渡る.音声認識の精度を高めることは,これらのシステムのユーザ満足度を向上させることに直結する.そのため,音声認識の精度を向上させるために着実に研究を進めていくことが重要である.

音声認識の精度は,様々な要因によって低下してしまうことが知られている.例えば背景雑音が音声に重畳してしまった場合,何も対処を行わないと音声認識精度は大幅に低下してしまう.他にも,話者の違い,マイクとの距離,部屋の残響,話している内容と,様々な要因によって音声認識精度が低下してしまう.

本論文では,背景雑音と話者の違いに対して頑健なシステムを構築することで,より精度の高い音声認識の実現を目指す.単純に目指すといっても,既に音声認識に関するこれまでの研究の歴史の中で,背景雑音や話者の違いに頑健にするための手法が数多く提案されている.そのため従来手法をよくサーベイし,それでもなお精度向上が見込める分野を重点的に研究していくのが望ましい.

現時点で考えうる,計算コストを無視して話者・雑音に頑健な手法の一つは,まず VAD で音声区間を求め,その区間から求めた MFCC や PLP などの音響特徴量を,特徴量正規化し,VTLN し,それを前後数フレーム連結して LDA し,STC し,fMLLR し,特徴量強調したものを特徴量にして,音響モデルとして HMM/DNN,言語モデルとして modified Kneser-Ney smoothing をかけた N-gram を用いて WFST デコーダで音声認識し,それを様々な特徴量を利用した識別モデルでリランキングし,このようなシステムを複数集めてシステムコンビネーションしたもの,となる.

サーベイの結果,本論文で特に注目したのは,背景雑音に頑健にするための技術である,特徴量ドメインでの雑音抑圧と,話者の違いに頑健になることが予想される,識別的リランキングにおける音声の構造的表象の利用である.

まず,近年の音声認識では音響モデルに HMM/DNN を使うケースが増えたため,話者や雑音のミスマッチ問題は,モデル適応ではなく,特徴量側で解決していくことが必要になると考えられる.そこで本論文では,雑音のミスマッチを特徴量側で解決する,特徴量強調法に注目する.特徴量強調では,VTS 強調や SPLICE が精度が高い手法として知られているが,それぞれに関して解決すべき問題点が残されている.

VTS 系の特徴量強調アルゴリズムは,クリーン音声 GMM のインデックスの事後確率を求める際に,分散共分散行列の逆行列を求める必要があるが,FBANK を利用する場合は対角になるため計算量が問題にならないが,MFCC を利用する場合には全角になるため,計算量がかかる.この処理は,雑音モデルが変化する度に必要になるため,非定常雑音環境下で雑音モデルが時間と共にすばやく変動する場合には現実的でなくなってしまう.結局,MFCC より精度の低い FBANK 領域を用いるか,精度の高い MFCC を使う代わりに雑音モデルが数秒の間固定したままにするか,のどちらかが必要になる.また VTS 系の特徴量強調では,特徴量として PLP や,前後数フレームの特徴量に LDA をかけた特徴量空間では利用できないことも問題点の一つである.

SPLICE 系のアルゴリズムは,任意の特徴量空間で利用することができて,しかも非常に高速に動作する.しかし,ステレオデータを用いる手法であるため,突発的な非定常雑音など,学習用ステレオデータの雑音環境に含まれていない雑音が重畳してしまった場合には,正しく特徴量強調を行うことができない.その一つの解決策として NMN-SPLICE があるが,NMN-SPLICE 対数をとった後の特徴量空間において引き算を行うというヒューリスティックな手法であり,なぜそれでうまく動作するのかには疑問が残る.

本論文では,高速に動作するという点で,SPLICE などのステレオデータを用いる特徴量強調に注目する.そして,ステレオベースの特徴量強調を非定常雑音にも頑健になるように改良する手法を提案する.具体的には,区分的線形変換において各部分空間の事後確率を求める部分の計算を,クリーン音声状態の識別と捉える考え方を導入し,その入力特徴量として,観測したノイジー音声の特徴量に加え,推定した雑音特徴量や,前後数フレームの特徴量を入力として利用することを提案する.加えて,線形変換の次元数が高くなった場合に L2 正則化を導入する手法も提案する.AURORA2 データベースを用いた実験の結果,クリーン音声状態の識別,結合特徴量を線形変換に用いること,正則化にそれぞれ効果があり,SPLICE や NMN-SPLICE を越える精度が実現できることが分かった.

次に注目すべき点として,音響モデルの研究からでてきた識別モデルを用いた音声認識と,識別的言語モデルの研究は,ほぼ同じような手法と目的を持ちつつ,ここまで互いに独立に発展してきていることがある.特に,音響モデル側の研究では識別モデルを使うことそのものに注目した研究が多く,どのような特徴量を用いるかについてないがしろにされていた点である.逆に識別的言語モデルの研究では,NNLM の尤度など,文全体にまたがる特徴量を積極的に利用しようとする研究が行われている.

そこで本論文では,識別的言語モデルで広く用いられている N-best リストの識別的リランキング手法において,長時間にわたって定義される音響的特徴量を利用する手法を提案する.この情報は,これまで利用されていなかった側面の情報であるため,認識精度をさらに向上させられる可能性がある.具体的には,この長時間にわたる音響特徴量として,音声の構造的表象を利用する.

音声の構造的表象とは,話者の違いに非常に高い頑健性を持つ特徴で,これまで孤立単語音声認識や外国語自動発音評価に利用され,効果が示されている.本論文の提案手法は,音声の構造的表象を初めて大語彙音声認識に適用する手法となる.提案手法により,日本語の大語彙音声認識実験の結果,HMM/GMM ベースのシステムから 6.69% の文字誤り率削減を実現することができた.

審査要旨 要旨を表示する

本論文は「背景雑音と話者の違いに頑健な音声認識」と題し,全6章から成る。音声信号には背景雑音,部屋の音響的残響,マイク・チャネルの音響特性,話者の体格・年齢差など,発声されたメッセージとは無関係の要因により様々な音響歪みが混入する。本論文はこれらの要因に対して「背景雑音」と「話者の違い」という二大要因を取り上げ,それらに頑健に動作する技術を個別に構築し,その有効性を実験的に検証している。

第一章は「音声認識の基本技術」と題し,音声認識システムを構築する際に必要となる4つの機能・モジュールと,音声認識問題の数理統計的な定式化を説明している。

第二章は「近年の音声認識技術とその問題点」と題し,第一章で述べた4機能の実装技術に関する近年の動向について非常に幅広いサーベイを行っている。本論文では,特に音響モデリングに着眼した検討を行っている。近年の音響モデリング技術は,識別モデルに基づくモジュール開発が行なわれるようになっており,本章でも複数の実装方式を紹介している。本章の後半では,実社会で利用されている大規模音声認識システム二つ取り上げ,state-of-the-art な認識システムについて記載すると共に,本章の最後では,現在でも未解決な問題である「背景雑音」と「話者の違い」による影響について触れ,その打開策について指針を述べている。

第三章は「非定常雑音に頑健なステレオベース特徴量強調」と題し,背景雑音に対する頑健性向上を試みている。SPLICE と呼ばれるステレオベース特徴量強調(雑音音声と対応する無雑音音声のパラレルコーパスを用い,雑音音声から無雑音音声への写像を推定し,これをシステム動作中に利用することで雑音音声に対する精度向上を図る)に着眼し,これを様々な観点から改良する方法について検討している。SPLICE では従来入力音声側の音響空間を領域分割し,入力特徴量がどの領域に所属するのかに基づいて変換関数を適応的に求めている。提案手法では,1)出力側のクリーンな音声特徴量空間で空間分割を行って写像関数を推定し,2)その空間における識別性を上げる目的で事前の識別的な特徴量変換を行なう技術を提案している。これらを検討する中で,本研究が先行研究をより一般化したモデルであることが数理的に示されている。この一般化モデルを最適化できれば,従来研究に比べてより高い精度を示すことが理論的に予想され,雑音化連続音声認識実験を通して,実験的にその妥当性を示すことができた。提案手法は声質変換,帯域拡張などにも応用し,こちらでも良好な結果が得られることが実験的に明らかとなった。

第四章は「ミスマッチがない場合にも頑健な特徴量強調」と題し,ミスマッチが無い場合に特徴量強調がもたらす副作用を軽減する手法を提案しており,実験的にその性能を確認した。

第五章は「識別的リランキングにおける構造的表象の利用」と題し,話者性の違いに対する頑健性向上を試みている。ここでは先行研究で提案されている話者の違いに不変な特徴量である構造的表象を,連続音声認識へ適用することを試みている。従来,構造的表象に基づく音声認識は,特徴量が離れた二時刻の(特徴量の)コントラスト量として定義されるため,特徴量時系列が入力されることを仮定した従来のデコーディングアルゴリズムとの相性が悪かった。本研究では,従来の音声認識技術と構造表象の利点を同時に生かす手法として,リランキングに着目し,複数の仮説に対する再評価プロセスにおいて,構造的表象を利用する手法を検討した。リランキングでは,近年,音声認識のデコーディングには直接活用しにくい特徴/情報も使われており,そこに構造的特徴を導入した。実験の結果,多様な話者を含む無雑音下の音声入力に対して,従来の音声認識よりも高い精度を示すことが示され,提案手法の有効性を実験的に確認することができた。

第六章は「まとめ」と題し「背景雑音」と「話者の違い」に対して音声認識システムを頑健に動作させる技術的解決を示した本論文を総括し,と同時に,今後の展望について述べている。

以上要するに本論文は,音声認識精度を下落させる音響的な主要因である「背景雑音」と「話者の多様性」に着眼し,これを解決する二つの技術を提案し,音声認識実験を通してその有効性を実証しており,情報工学に貢献するところが少なくない。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク