学位論文要旨



No 117995
著者(漢字) 西澤,信行
著者(英字)
著者(カナ) ニシザワ,ノブユキ
標題(和) フォルマントの高精度推定に基づく高品質かつ柔軟な音声合成
標題(洋)
報告番号 117995
報告番号 甲17995
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5453号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 柴田,直
 東京大学 教授 西田,豊明
 東京大学 教授 相田,仁
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

 本論文では、AR-HMMモデリングに基づく高精度な母音音声の分析手法を提案し、これを用いた高品質かつ柔軟な音声合成の実現に関する検討を行った。

 今日、比較的容易に高い品質が得られることから、テキスト音声変換システム等では波形接続方式による音声合成が広く用いられている。しかし、朗読調でない音声、例えば対話音声や感情音声の合成には、韻律的特徴の自由な制御が不可欠であり、さらには声質の制御も要求される。これを波形編集方式で実現するためには、非常に大量の波形データの蓄積が必要であり、将来的に蓄積の大きさというハード面の問題が無視できるとしても、音声収録の負担は依然として大きな問題である。

 一方、大規模な蓄積を必ずしも必要としない音声合成方式として、音声生成過程を音源と調音フィルタに分解して考えるソース・フィルタモデルに基づく手法が知られている。ソース・フィルタモデルに基づく音声合成において、両者の特性を明確に捉えることができれば、それぞれを独立に制御することによる柔軟な音声合成の実現が期待される。

 従来、ソース・フィルタモデルに基づく多くの音声分析合成システムでは、線形予測分析等の手法により、自然音声波形を白色化するフィルタパラメータを求め、合成時には、その逆特性を調音フィルタの特性として与え、一方、音源には、簡単のためにインパルス列と白色雑音源を組み合わせたものが用いられることが多かった。しかしこのようなモデルで、音源と調音フィルタを制御することは実際には容易ではない。なぜならば、モデル上の音源は実際の音声生成過程における音源の特徴の一部しか表現しておらず、調音フィルタにも生成過程における音源由来の成分が含まれてしまい、結果的に音源と調音フィルタを独立に制御することが出来ないためである。このことを無視して独立に制御した場合、例えば音源の基本周波数を大きく変化させた際に極端な品質低下が起きるといったような問題が生じる。従って、生成機構における音源と声道伝達特性という形で自然音声の特徴を分離することができれば、もちろん両者は相互に関連しており、完全に独立には制御できないにせよ、従来よりも独立に制御した際の品質の低下を抑えることができると期待される。

 そのような音源・フィルタ分離を行う音声合成手法として、声帯音源波形を数式により表現したモデル(声帯音源波形モデル)をその駆動音源として用いるフォルマント合成(ターミナルアナログ方式による音声合成)は代表的な手法である。特にフォルマントは音声の周波数領域における特徴を記述する上で比較的優れた特徴量であり、これをパラメータとするフォルマント合成は、パラメータを広い範囲で操作した場合においても合成音声品質の低下が小さいため、柔軟な音声合成に適していると考えられる。

 特に母音型音声については、声帯音源波形モデルとARX(Auto-regressive with exogenous input)モデルにより合成回路のモデル化を行い、自然音声から合成器のパラメータを推定する手法によって、フォルマント合成により比較的高い品質の合成音声が得ることができている。しかし、フォルマント合成には幾つかの問題がある。その1つは分析に基づく子音波形の生成が困難であること、もう1つは母音についてもフォルマントの制御方法が明らかではないことである。本論文ではこれらの問題について論じる。

 まず、子音波形生成の困難さについてであるが、子音については生成過程との対応性を求めると、比較的複雑な構成の合成回路が必要となり、自然音声波形からそのパラメータを精度良く推定することが困難となる。そこで、本論文においてはまず、合成システム開発を容易にすることを目的として、分析が困難な子音については自然波形を直接利用する手法について検討を行った。そして知覚実験の結果から、そのような2つの音声合成手法を組み合わせたことによる、極端な品質低下が生じないこと、また、音声合成における柔軟性は母音合成において重要であり、波形利用により子音合成の柔軟性が失われた場合においても、合成システム全体として柔軟性を有していることを確認した。この結果に基づき、以降、本論文においては主に母音型音声に対し議論を行った。

 一方、フォルマントの制御方法に関する問題に対し、将来的にはパラメータ制御に統計的モデルを利用することが考えられる。特に近年、音声認識で用いられるHMM(隠れマルコフモデル)を音声合成に用いる、という手法が注目されている。この手法では、音声認識で広く用いられている音響特徴量であるメルケプストラムを音声合成のパラメータとして用いることが一般的であるが、パラメータとしてフォルマントの周波数・帯域幅を用いることも可能である。メルケプストラムと比較し、フォルマントは特に母音音声の音響的特長を良く表現する特徴であり、より少ない音声サンプルで、より柔軟な音声の合成が期待される。しかし、メルケプストラムの推定とは異なり、フォルマント合成のパラメータ推定に必要な、声帯音源波形モデルとARXモデルに基づく音源・フィルタ特性の同時推定問題は非線形問題であり、安定した分析結果を得ることが容易ではない。そのため、大量の分析結果に基づく高精度なモデルを作ることは困難である。

 そこで本論文では、声帯音源波形モデルを用いず、より自由度が高く取り扱いが容易なループ状のHMMをAR過程の分析誤差のモデルとして用いる、AR-HMMモデリング手法を用い、より安定した音源・フィルタ特性の分離手法を提案する。AR-HMMモデリングは佐宗らにより提案された手法であり、線形予測分析において定常的な白色雑音と仮定されている残差波形の統計的性質をHMMで表現されるモデルで表すことで、より精密に音声のモデル化を行う手法である。佐宗らによると、この手法により周波数軸上において調波成分として現れる音声波形の周期性がモデル上でより精密に表され、音声のスペクトル包絡特性推定の際に、線形予測分析において問題となる音源の基本周波数の影響を受けにくい音声分析が実現される。ここで用いられるループ状のHMMは周期性を有し、かつ振動周期に揺らぎが存在する声帯音源波形の表現にも適したものであると考えられるが、音源波形の特徴を表すための制約としては不十分であるため、本論文では、AR過程により表現される極配置を制限することにより、周期性の分離だけでなく、より生成機構との対応性に優れた音源・フィルタ特性の分離を行う手法を導入する。この際の制約条件としては、声道伝達特性が共振特性のみの積で表現されるという仮定を採用した。AR-HMMモデル推定はAR部とHMM部の反復推定によるパラメータ推定を必要とするが、提案手法においてはさらに、モデルにおけるAR部に実極が現れなくなるまでAR次数が減らされ、一方でその分の特徴がHMMにおいて表現されるように分析が誘導される。この手法は、線形予測分析の結果得られる複素共役な極、すなわち共振特性と、生成過程における声道伝達特性における共振特性との間に対応関係がある、との前提に基づくもので、本手法により、音源特性の影響が含まれない、よりソース・フィルタモデルによる音声合成に適したフォルマントの特徴が推定される。

 そして提案手法の妥当性を評価するための実験を行った。まず自然発話中に含まれる母音音声に対し、線形予測分析、AR-HMM分析、提案手法でそれぞれ分析を行へ母音毎に、推定された音源特性・フィルタ特性の32次ケプストラム空間におけるパラメータの広がりを求めた。その結果、提案手法により、分布の小さいパラメータが得られることが確認された。さらに各ケプストラム次数についてその分散を調べたところ、他手法と比較し、1次のケプストラム係数の分散が特に小さくなっていることが判った。1次のケプストラム係数はスペクトラム傾斜成分に大きく関係するパラメータであり、音声のスペクトル傾斜は主に音源特性に由来するものであることから、より適切に音源特性を取り扱うことができている、と考えられる。また、フォルマント合成による母音音声に対し、線形予測分析と提案手法で分析を行いそれぞれ比較した。結果、提案手法は逐次近似推定でありながら、線形予測分析と比較し、より安定した分析結果を返すことが判った。以上より、提案手法は、大量の音声分析に有効な手法であることが明らかとなった。

 また音声合成においては、最終的な評価は合成音品質が基準となる。このため、客観評価だけでなく主観評価も重視される。提案手法による分析の妥当性を評価するため、推定フォルマントに対する逆フィルタ波形により駆動されるフォルマント合成器を構築し、それを用いた分析再合成音に対する評価を行った。この際、TD-PSOLA法により音声波形自体にピッチ変換を施したものと、提案手法により分離された推定音源波形に対しピッチ変換を行い、この波形でフォルマント合成器を駆動したものを比較し、ピッチ変換率の点で分析合成手法が優れていることを確認した。ピッチ変換に対して有効な同様の手法は他にも存在するが、それらの手法の多くがノンパラメトリックなスペクトル包絡表現となっているのに対し、本論文における分析合成系ではパラメトリックな表現が用いられており、スペクトル包絡に対する非線形な制御が比較的容易である。実験の結果、ある程度の合成音品質を保ったまま、合成音声のスペクトル包絡を自由に制御することが可能であることが示された。

審査要旨 要旨を表示する

 本論文は「フォルマントの高精度推定に基づく高品質かつ柔軟な音声合成」と題し、パラメータの変更に対して柔軟な音声合成が可能なフォルマント合成の高品質化を、波形接続との併用とAR-HMM(Auto Regressive-Hidden Markov Model)分析に基づくフォルマントの安定な推定により達成することを試みたものであって、全7章からなる。

 第1章は「序論」であって、柔軟な音声合成のためには、パラメトリックな音声分析が不可欠なことを指摘した上で、フォルマント合成に着目し、本論文の目的が、パラメトリックな処理の困難な子音の取り扱いとパラメトリックな処理の基本となる高精度分析にあるとしている。また、第2章以降の論文構成を説明している。

 第2章は「音声合成における波形生成手法の研究動向」と題し、まず、音声合成で用いられている波形編集手法、ノンパラメトリック分析手法、パラメトリック分析手法について、説明した上で、現在、主流であるのコーパスベース音声合成手法との関連で、波形編集手法、ノンパラメトリック分析手法の利点を述べている。その上で、柔軟な音声合成のためにはパラメトリック分析手法に基づく必要があることを示し、音声の声道伝達特性と音源特性の安定な分離が重要としている。

 第3章は「子音波形に波形接続を用いる音声合成方式」と題し、調音機構が一般に母音より複雑な子音の取り扱いについて、パラメトリックな処理が困難であって、波形として取り扱うことを提案している。実際に、母音をフォルマント合成し、子音を波形のまま取り扱う合成システムを構築して、合成音声品質の聴取実験からこのような折衷的な合成方式が有効であるとしている。

 第4章は「AR-HMMモデリングに基づく母音分析」と題して、音源をHMMで表現するAR-HMMを用いて伝達特性の複素共役根として表わされるフォルマントを逐次的に推定する手法を提案している。通常のAR分析では、音源波形の特徴も伝達特性に含めて推定されるが、それを、順次、音源波形に戻すことを行う。母音を対象とした分析により、提案手法によりパラメータ推定が安定に行い得ることが示された。

 第5章は「頑健な高精度音声分析」と題して、前章で提案した手法をさらに発展させ、状態分割等を行ってHMMを音源波形表現のために最適化する手法を開発している。パラメータ既知の合成音声を対象として実験を行い、手法の有効性を実証している。

 第6章は「フォルマントの高精度分析に基づく逆フィルタ波形駆動フォルマント合成」と題し、AR-HMMに基づく音声分析を前提とした残差駆動フォルマント音声合成を提案している。この合成を用いて音源を変更した母音音声等を合成し、従来のAR分析にもとづく合成よりも高品質な音声が得られることを示している。また、これにより開発したAR-HMMによる音声分析の妥当性が示されたとしている。

 第7章は「結論」であって、本研究で得られた成果を要約し、将来の課題について言及している。

 以上を要するに、本論文は、特徴の柔軟な制御が可能なパラメトリック分析に基づく音声合成として、特にフォルマント合成を取り上げ、その高品質化を、子音波形接続との併用、AR-HMM(Auto Regressive-Hidden Markov Model)逐次分析に基づく安定なフォルマント音源分離により達成することを試みたものであって、実験的にその妥当性を実証している。困難な課題とされていた高品質パラメトリック合成の実現に道を開いたものであり、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/1054