No | 116653 | |
著者(漢字) | 李,時旭 | |
著者(英字) | ||
著者(カナ) | イ,シウク | |
標題(和) | 大語彙連続音声認識における韻律モジュールの導入 | |
標題(洋) | Incorporation of Prosodic modules for Large Vocabulary Continuous Speech Recognition | |
報告番号 | 116653 | |
報告番号 | 甲16653 | |
学位授与日 | 2001.09.28 | |
学位種別 | 課程博士 | |
学位種類 | 博士(工学) | |
学位記番号 | 博工第5065号 | |
研究科 | 工学系研究科 | |
専攻 | 電子情報工学専攻 | |
論文審査委員 | ||
内容要旨 | 音声認識技術は,近年の計算機技術の向上,及び,音声/言語現象を数理統計的にモデル化する方法論の確立によって飛躍的に進歩し,パソコン上で動作する実用アプリケーションも数多く市販されるようになった。本研究では,韻律的特徴を有効に音声認識技術への導入することを検討した。具体的には,大語彙連続音声認識における仮説探索処理における韻律句境界情報の利用を行なった。 韻律句境界情報を利用した大語彙連続音声認識の高精度化 木構造辞書を用いた大語彙連続音声認識における仮説探索過程では,factoringによって照合対象語彙が決定する以前から(単語レベルでの)言語尤度を推定し,音響尤度との統合が図られる。一般的なfactoringでは,木構造辞書中のある分岐ノードに接続されている単語群に対する言語尤度として,その単語群中の最大言語尤度を採用することが多い。その結果,ルートノードに近い分岐ノードでは,正解が含まれない単語群の言語尤度がより高く評価され,正解を含む単語群がビーム外に追いやられる可能性がある。このような事態は,ビーム幅そのものを十分に広くすることで避けることができるが,逆に認識時間を増大させる結果となる。一方,デコーディング処理が木構造辞書の単語尾ノードに近づくにつれて,言語的にも音響的にも,入力音声が照合対象としている単語であるか否かの信頼度(即ち,言語尤度,音響尤度の信頼性)はより高くなる。その結果,ビーム幅を削減したとしても認識精度には影響を与えないことが予想される。以上の考察より本研究では,韻律情報より推定される韻律句境界情報を利用して,ビーム幅を動的に制御する方式について検討した。また,多くの仮説探索器(デコーダ)は,二段構成をとることが多い。各段で使用される音響モデルの差異として,単語境界(cross-word)における音素環境依存性がある。即ち,処理の高速化のために第一段では単語境界においては環境非依存のモデルを使用し,第二段では(高精度なモデルである)環境依存のモデルを使用することが多い。しかし,多くの音韻(変形)規則が韻律句内の現象を説明していることから推察されるように,韻律句境界となっている単語境界では,調音結合の度合いが低くなることが容易に予想される。このような場合においても環境依存のモデルを使用することは認識率の低下に繋がる恐れがある。そこで,韻律句境界における音素環境依存モデルの使用を制限したデコーディング手法についても検討した。 韻律句境界の検出 まず、F0パターンとパワーパターンを用いて韻律句境界の推定を行なった。なお,ここでは文節を単位とした統語境界も,韻律句境界として考えている。まず,パワーパターン中に観測される谷を用いて句境界候補を算出する。次に,観測されたF0パターンと線分近似を行なったF0の大局近似パターン中の谷を参照することで更に候補を追加する。これらに対して予め規定された規則を用いて句境界を推定する。この規則では閾値処理が行なわれ,主に句境界検出における挿入誤りを制御する働きを持つ。先行研究における評価実験では,30%の挿入誤り時に80%の句境界検出を実現している。 韻律句境界を利用したビーム幅の動的制御 上述したように,ルートに近いノードにおけるfactored言語尤度によって正解単語がビームから除外されないためには,十分広いビーム幅が必要となる。図1はビーム幅固定の仮説探索において,アクティブな仮説に対する時間正規化ビタビスコアの最小値と,正解文に対するスコアを示したものである。図より明らかに,単語尾に近づくにつれて,ビームに残る仮説中の最低スコアは減少する傾向が観測される。これは,不要なアクティブ仮説が増大していることを意味する。 韻律境界を考慮したcross-word音響モデル 仮説中の単語境界における右側音素環境は(未決定の)次単語に依存するため,単語境界時の環境依存モデルは第二パス(即ちリスコアリング)時に導入されることが多い。この場合前節で述べたように,無条件にcross-wordモデルを導入することは認識率の劣化を招く恐れがある。即ち,韻律境界として出現した単語境界では,調音結合の度合いが弱くなることが予測される。そこで本研究では,韻律境界としての単語境界に対しては,非cross-wordモデルを利用する方式を検討した。 大語彙連続音声認識実験による評価 本研究で構成したマルチパス構成のデコーダを図2に示す。また,音響モデルは状態数3,000のtriphoneを,言語モデルには毎日新聞記事より構築されたbigram, trigramを利用した。評価文音声としては,JNASデータベースの一部(音響モデル,言語モデルの学習に使用されていない話者,新聞記事による50文)を利用した。なお,全て男声であり,一人5文ずつ合計10名による発声である。なお,音響分析条件は表1に示す通りである。 まず,ビーム幅の動的制御による効果について検討する。静的なビーム幅制御に基づく単語正解率(WAR : %Correct-%insertion)を表2に示す。ビーム幅を動的に制御した場合の結果を表3に示す。いずれも第一パスにおける評価結果である。表より,WAR=86%の時は,ビーム幅を動的に制御することでactive node数を約50%, RealTime(RT)ファクタを約30%減少させることができ,ビーム幅の動的制御が大語彙連続音声認識において有効に寄与することが示された。 次に,cross-word音響モデル利用の動的制御による効果を検討する。結果を表4に示す。SCRは文正解率であり,また,Times(xRT)は第二パスまで含めたRTファクタである。韻律境界位置情報に基づいてCCDモデルを使い分ける提案手法によって,SCRが顕著に上昇している(約14[%]の上昇率)。また,ビーム幅の動的制御及びCCDモデルの動的適用によって,ほぼ同一のWARを保ったまま効果的にRTファクタを低減させていることが分かる。 まとめ 本研究では,音声認識における韻律的特徴利用を念頭に置き,「大語彙連続音声認識の仮説探索におけるビーム幅,cross-word音響モデル利用を韻律句境界情報に基づいて制御する方式」を提案し,その有効性を実験的に示すことができた。 図1.静的なビーム幅を用いた探索処理における,アクティブな仮説に対する尤度変化以上の考察より,ビーム幅を単語頭においては広く,単語尾に近づくにつれて徐々に狭く制御することで,不要な仮説展開を抑える方式を提案する。 なお,韻律句境界情報からは正解文における句境界位置が推定されるが,デコーディング処理中は,仮説展開において言語尤度が加算されるタイミングに同期したビーム幅制御も必要となる。従ってビーム幅を動的に制御した。 図2.韻律句境界情報を利用した大語彙連続音声認識システム 表1.音響分析条件 表2.静的ビーム幅制御による単語正解率 表3.動的なビーム幅制御による単語正解率 表4.韻律境界情報に依存したcross-wordモデル利用の効果 | |
審査要旨 | 本論文は「Incorporation of Prosodic Modules for Large Vocabulary Continuous Speech Recognition(大語彙連続音声認識における韻律モジュールの導入)」と題し、韻律境界情報を用いて大語彙連続音声認識の性能向上を図ったものであって、全7章からなり、英文で記述されている。 第1章は「Introduction」であって、まず、現在の連続音声認識についてその問題点を指摘した上で、統語境界との関連が深い韻律境界情報を利用する可能性について言及している。次に、韻律境界検出の性能の低さにふれ、その要因を考察したうえで、性能向上が必ずしも容易でないことを指摘し、従来のような、入力音声の区分に利用する手法に限界があるとしている。さらに、連続音声認識で一般的に用いられているCross-word Context Dependent(CCD)音素モデルについて、韻律によって示される単語間の結びつきの強さに対応して、その利用を制御し得る可能性を示している。最後に、第2章以降の論文の構成を述べている。 第2章は「Large vocabulary continuous speech recognition」と題し、HMM音響モデルとn-gram言語モデルによる、統計論的な枠組みの連続音声認識アルゴリズムについて説明している。特に、本論文と関連の深い探索問題について、2段階の認識探索器を念頭におき、Viterbiビーム探索、A*探索、木構造辞書等について詳説している。また、探索範囲(認識時間)と認識率の関係についても言及している。 第3章は「Prosodic information for automatic speech recognition」と題し、従来行われている音声認識への韻律の利用手法を整理した上で、論文との関連の高い有用なもの3つを特に紹介している。1つめは、韻律を組み込んだトータルな認識システムであるVerbmobilプロジェクトにおける内容の紹介であり、これが単語候補の情報を利用し、韻律的特徴を用いて各言語境界の確率を推定した上で、それを認識における言語処理過程で利用するものであるとしている。2つめは統計的モデリングによる韻律語境界の抽出手法として提案された、モーラ基本周波数(F0)パターン遷移過程のモデルである。3つめは対話アクトの分類への利用であり、これによって適切な言語モデルを選択すれば認識性能の向上が期待される。最後に、韻律の利用形態について言及し、本論文で提案する手法の導入としている。 第4章は「Detection of prosodic-syntactic boundaries」と題し、まず、韻律の重要な特徴としてのF0パターンについて、その特徴とモデル化について説明している。次に、本論文で利用するF0パターンの大局的及び局所的特徴を併用した韻律境界(アクセント句境界)情報抽出手法について説明し、特に挿入誤りが多いとしている。 第5章は「Incorporation of prosodic modules for LVCSR」と題して、本論文で提案する2つの手法について述べている。1つめは、木構造辞書を利用したViterbiビーム探索で行われる言語尤度のfactorizationに起因する最適探索経路のスコアの変動を考慮した動的ビーム幅制御である。これは、単語あるいは文節の始めで最適探索経路のスコアが見かけ上悪化することに着目したものであり、韻律境界が文節境界に近似的に対応するとして、ビーム幅を境界付近で広げ、次の境界に向かって狭める手法である。2つめは2段階目の探索において、CCDモデル(tri-phoneモデル)の利用を制御する手法である。韻律境界では音響的な調音結合が弱まると仮定し、そこではbi-phoneモデルを用いる。 第6章は「Experimental results」と題し、実際に2段階の認識探索器に前章の手法を組み込み、大語彙連続音声認識を行った結果について述べている。テストデータは日本語新聞記事から選択した50文を10名のいずれかの話者が読み上げたものである(5文/1名)。音響モデル、言語モデルは日本語新聞記事とその音声から構築された公開のものを用いている。実験の結果、30%の認識時間の減少、14%の文正解率の向上を得、手法の有効性が示されたとしている。 第7章は「Conclusion」であって、本研究で得られた成果を要約し、統計的手法による韻律境界検出の性能向上など、将来の課題について述べている。 以上を要するに、本論文は、連続音声認識において韻律的特徴を利用する新しい方策として、韻律境界情報を用いた正解候補探索の際のビーム幅動的制御手法、CCDモデルの利用制御手法を提案し、その有効性を認識実験により実証したものである。これは、人間の音声知覚過程での重要性が指摘されているにもかかわらず、従来、認識にほとんど利用されていなかった音声の韻律情報を利用する一般的かつ有効な手法を提示した初めてのものといえる。今後の大語彙連続音声認識の性能向上の発展に大きく寄与するものであり、電子情報工学に貢献するところが少なくない。 よって、本論文は博士(工学)の学位請求論文として合格と認められる。 | |
UTokyo Repositoryリンク |