学位論文要旨



No 127506
著者(漢字) 汪,淼淼
著者(英字)
著者(カナ) オウ,ミョミョ
標題(和) HMM中国語音声合成における韻律制御の高度化
標題(洋) Advanced Control of Prosody in HMM-based Mandarin Speech Synthesis
報告番号 127506
報告番号 甲27506
学位授与日 2011.09.27
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7592号
研究科 工学系研究科
専攻 電気系工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 柴田,直
 東京大学 教授 浅見,徹
 東京大学 教授 森川,博之
 東京大学 准教授 峯松,信明
内容要旨 要旨を表示する

Speech synthesis is the artificial production of human speech. A computer system used for this purpose is called a speech synthesizer, and can be implemented in software or hardware. A text-to-speech (TTS) system converts normal language text into speech; other systems render symbolic linguistic representations like phonetic transcriptions into speech. Synthesized speech can be created by concatenating pieces of recorded speech that are stored in a database. Systems differ in the size of the stored speech units; a system that stores phones or diphones provides the largest output range, but may lack clarity.

Recently in speech synthesis community, attention has been attracted by HMM-based speech synthesis, in which short term spectra, fundamental frequency (F0) and duration are simultaneously modeled by the corresponding HMMs. It has compact and flexible representation of voice characteristics and has been successfully applied to TTS system in many different languages, e.g., Japanese, English and Mandarin. Compared with the large corpus, example the unit selection based speech synthesis, HMM-based synthesis is statistically oriented and model based. The speech generated by the HMMs is fairly smooth and exhibits no concatenation glitches occur in unit-selection synthesis. To change the segmental or supra-segmental quality of the generated speech, we can modify HMM parameters flexibly.

We are working hard to turn our ideas into reality and improve spoken-language technologies, enable human-computer voice interaction, and enrich human-to-human voice communications. We are current focus speech synthesis to enable computers to speak with a human-sounding voice, to respond and provide information, and to read; and spoken-document retrieval and processing to enrich communication between people. Hence our goals in building a computer system capable of speaking are to build a system that first of all clearly gets across the message and secondly does this using a human-like voice. Within the research community, these goals are referred to as intelligibility and naturalness.

Prosody is the rhythm, stress, and intonation of speech. It's highly related with the intelligibility and the naturalness of synthetic speech. Prosodic features are suprasegmental. They are not confined to any one segment, but occur in some higher level of an utterance. However, the prosodic features, like F0 and duration trajectories, generated by HMM-based speech synthesis are often excessively smoothed and lack prosodic variance. Prosodic features of speech are known to play an important role in the transmission of linguistic information in human conversation for any languages. But it's critical to Mandarin, or Standard Chinese.

Mandarin is a typical tonal language and each tone presents different meanings. F0 and duration are the two of the most important prosodic features contributing to the perceived naturalness of synthetic speech. The current state-of-art HMM-based TTS can produce highly intelligible output speech and deliver a decent segmental quality. However, its prosody, especially at the phrase or sentence level, tends to be bland.

In my study, in order to model the prosodic features within the standard HMM framework, firstly, we propose a new minimum v/u error approach to F0 trajectory synthesis for HMM-based TTS. The new approach is for producing more consistent and better v/u prediction in synthesis than the conventional baseline system. A prior knowledge of v/u label for each Mandarin phone is incorporated into v/u prediction and accumulated v/u probabilities are used to search for the optimal v/u switching point. Comparing with the baseline system, the new approach can significantly reduce v/u prediction errors in F0 generation and produce more pleasant synthesized voice. Then secondly, I developed a corpus-based method of synthesizing F0 contours in the framework of the generation process model (F0 model), which represents continues sentence F0 contours as a superposition of tone components on phrase components. By handing F0 contours in the F0 model framework, a clear relationship is obtainable between generated F0 contours and their background linguistic (and para-/non-linguistic) information, enabling "flexible" control of prosodic features. The F0 generation process model is used to re-estimate F0 values in the regions of pitch tracking errors, as well as in unvoiced regions. A prior knowledge of VU is imposed in each Mandarin phoneme and they are used for VU decision. Also it's necessary to predict segmental durations (including pauses) according to syntax information from the text. Firstly, this will help generation of prosody automatically at the backend in a system. Secondly, from the view of human speech production, underlying and surface syntax representation of the utterance is the step before phonetic representation in human speech production process. Syntax information might provide important cues for segmental duration prediction. We design a set of syntax features to improve Mandarin phoneme duration prediction. Instead of using manually extracted syntax information as previous researches do, we acquire these syntax features from an automatic Chinese syntax parser. Results show that even though the automatically extracted syntax information has limited precision; it could still improve Mandarin segmental duration prediction.

審査要旨 要旨を表示する

本論文は「Advanced Control of Prosody in HMM-based Mandarin Speech Synthesis(HMM中国語音声合成における韻律制御の高度化)」と題し、標準中国語HMM(Hidden Markov Model)音声合成において、基本周波数パターンモデルによる無声区間の補間、声調核モデルによる声調の安定した表現などにより、韻律的特徴の学習に改善を施すことにより、従来と比較した音質の向上を達成したもので、全8章からなる。

第1章は「Introduction」であって、テキスト音声合成について、まず、歴史的経緯を含めて概説した後、特に中国語で重要な課題となっている韻律の取り扱いに触れ、次に、本論文が中国語HMM音声合成の韻律的特徴の改良を目指したものであるとしている。最後に、本論文の章構成が示されている。

第2章は「Communication Process」と題し、まず、人間における、テキスト入力-音声出力過程を概観した後、テキスト音声合成で必要となるテキスト解析から始まる種々の処理過程について簡単に言及している。次に、中国語音声の特徴について声調の観点から述べ、中国語を中心とした韻律的特徴に関する研究のいくつか紹介した上で、音声合成において着目すべき点を整理している。

第3章は「Hidden Markov Model based Speech Synthesis」と題し、本論文の基本となるHMM音声合成を概説している。まず、音声認識で一般的であるHMMの構成と、その学習、適応と認識への適用について説明し、音声合成に利用した時の音素モデルの学習の特徴について、特に決定木による状態クラスタリングについて詳細に述べている。

第4章は「Duration Modeling and Improvement」と題し、まず、HMM音声合成における、音素長、休止長の制御について述べ、決定木に基づく状態クラスタリングで注目する項目について整理している。次に、統語情報の重要性を指摘し、音素長、休止長の制御で用いる統語情報の具体的項目を提案している。その上で、連続量の取り扱いに適した決定木モデルを採用することで、音素長、休止長の推定精度が向上したとしている。

第5章は「F0 Modeling and Generation in HMM-based TTS」と題し、HMM音声合成での基本周波数発話の制御で、一般的に用いられているMulti-Space probability Distribution (MSD) HMMを紹介し、その問題点が有声・無声の切り替えにあるとしている。MSD-HMMでは、基本周波数を、有声区間では数値、無声区間では基本周期なしとして、切り替えて表現するが、学習音声における有声・無声の誤りが多く発生し、結果として、音質の低下が問題となっている。この様なMSD-HMMの問題点を整理し、次章の提案方式の導入としている。

第6章は、「Continuous F0 Modeling and Improvement」と題し、前章で提示した有声・無声の誤りに起因する問題を解消するための2つの手法を提案している。1つ目は、音素の情報を利用するもので、音素が有声音であるか無声音であるかに従い、有声・無声の切り替えに制約を加えるものである。2つ目は、基本周波数パターン生成過程のモデルに基づく補間により、無声区間にも基本周波数を与えるもので、連続的な基本周波数パターンでモデル化する。合成に際し、有声・無声の切り替えが必要となるが、それは有声音・無声音の区別に従う。基本周波数の推定精度向上のみならず、音素長の推定精度向上も達成している。合成音声の聴取により、MSD-HMMを用いた音声合成よりも合成音声の品質向上が得られたとしている。

第7章は、「Tone Nucleus Model and its Application to HMM-based TTS」と題し、基本周波数パターンを声調核のみに着目して生成し、声調核以外の部分については、遷移区間と考え、補間する手法を提案している。声調核モデルは、音節の基本周波数パターンを、遷移部分+声調核+遷移部分として捉えるもので、声調核に着目することで、声調型のラベリングの精度を上げ、より安定した基本周波数の表現が可能となる。声調核は有声区間であるため、有声・無声の判定誤りに起因する問題も解消できる。合成音声の聴取により、音節全体の基本周波数パターンを対象とする従来手法よりも合成音声の品質向上が得られたとしている。

第8章は、「Conclusion and Future Work」と題し、本論文での成果の概要を述べ、今後の発展について議論している。

以上を要するに、本論文は、HMM音声合成において、有声・無声の誤りに起因する音質劣化を解消する手法として、音素の有声・無声の情報、基本周波数パターンの生成過程モデルによる補間、声調核モデルによる基本周波数パターンの安定した表現、に基づくものを開発したものであって、それによって標準中国語HMM音声合成の韻律的特徴の改善を達成している。音声合成の発展に大きく寄与したものであり、情報通信に貢献するところが少なくない。

よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク