学位論文要旨



No 215616
著者(漢字) 金,相勲
著者(英字) Kim,Sang-hun
著者(カナ) キム,シャンハン
標題(和) 大容量のデータベース基盤の韓国語の音声合成器
標題(洋) Korean Corpus-based Text-to-Speech Synthesis System
報告番号 215616
報告番号 乙15616
学位授与日 2003.03.12
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第15616号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 相澤,清晴
 東京大学 助教授 森川,博之
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

Speech synthesis is an emerging technology with many potential applications; especially fax reading, directory and reverse directory listing, information retrieval, proofreader, a talking character, dictation and navigational systems. To satisfy the user's needs, the speech synthesis has to create human-like voice as closely as possible. However, the conventional concatenative TTS systems based on prosody control still produces machine-like synthetic speech. It comes from the excessive signal processing for prosodic modifications. In general, the conventional methods have the limited available synthesis units (typically 1,000〜2,000 demisyllables or diphones) in terms of acoustic and prosodic point of view. It is necessary to modify the prosody to represent the various prosodic phenomena with the defected speech database. The conventional synthesis methods seem to reach limits in the point ofthe synthetic speech quality. Therefore, it is time to shift the paradigm of speech synthesis.

This thesis describes a new Korean Text-to-Speech (TTS) system. To cope with the problems mentioned before, we have implemented a new Korean corpus-based TTS system using a large speech database without prosodic modification. The new TTS system has adopted the context sensitive units (i.e., triphone) as a synthesis unit. We have designed a new sentence set maximizing phonetic or prosodic coverage of Korean triphones. All the utterances were segmented through semi-automatic ways and constructed to synthesis database reflecting a synthesis unit cost of zero if two synthesis units were located consecutively in an utterance. This operation reduces the number of concatenating points that may occur due to concatenating mismatches. By doing so, we could create human voice-like synthetic speech without prosodic modification. From the informal listening test, we found that the proposed TTS system showed greater naturalness than did the baseline TTS system based on TD-PSOLA technique.

We have tried to detect the phrase break strength from the utterances. The various prosodic features were extracted. As a detection algorithm, the CART classification method was adopted. The detection performance of CART was 81.7% for four levels of phrases break strength except sentence final label '6'. To predict phrase break strength on texts, we have adopted an HMM-like part-of-speech sequence model. To reflect major prosodic variations, the phrase break strength was divided into four kinds of phrase types based on pause length. The performance of the prediction model has shown 73.5% accuracy for four level phrase break strength prediction. We have also investigated phrasing style of several speakers. There is 88% agreement between speakers in phrasing style. After reflecting different phrasing types of speakers, the prediction accuracy was 80.8% for two level (Break or Non-Break) phrase break strength.

In the thesis, a new intonation stylization (i.e., LH stylization) was proposed. As a classification algorithm, we have adopted multi-layer perceptron one of neural network classifier. Complex intonation contours were stylized using step functions. We have extracted four kinds of prosodic features based on the stylized intonation contours. In the experiment of discriminating five major different boundary tones, the performance has shown 82.4% of boundary tone classification. Finally, we have proposed a new pruning method called weighted vector quantization (WVQ) to eliminate useless instances from the synthesis database. As usual, a large-scale synthesis database for a unit selection based synthesis method retains redundant synthesis unit instances, which are useless to the synthetic speech quality. The WVQ reflects relative importance of each synthesis unit instance when clustering the similar instances using vector quantization (VQ) technique. The proposed method was compared with two conventional pruning methods through the objective and subjective evaluations of the synthetic speech quality: one to simply limit maximum number of instance, and the other based on normal VQ-based clustering. The proposed method showed the best performance under 50% reduction rates. Over 50% of reduction rates, the synthetic speech quality is not seriously but perceptibly degraded. The synthesis database can be efficiently reduced without serious degradation of the synthetic speech quality using the proposed method

Thanks to the corpus-based synthesis method, the TTS systems for information retrieval purposes seem to be successfully applied in real applications in spite of lack of user requirements. However, it is unilateral communication. In the near future, the TTS systems should be responded to the user's requirements interactively. In that case, the TTS systems should be able to output dialogue style speech. Furthermore, the TTS systems will express the emotion for the natural man-machine interface. Thus, this challenging topic will be hot issue in speech synthesis area.

審査要旨 要旨を表示する

 本論文は「Korean Corpus-based Text-to-Speech Synthesis System(大容量のデータベース基盤の韓国語の音声合成器)」と題し、トピックに対応した音声コーパスを利用した波形選択合成によって自然な韓国語音声合成を達成したものであって、全8章からなり、英文で記述されている。

 第1章は「Introduction」であって、まず、音声合成の諸方式の問題点を概観した上で、それを、本論文ではコーパスベース音声合成で解決するとしている。次に、既存のコーパスベース音声合成手法・システムを整理し、本論文では、音声コーパスの効率的な構築と韻律制御について扱うとしている。また、本論文のコーパスベース韓国語テキスト音声合成(TTS、Text-to-Speech)システムの構成図を示した上で、その処理の各過程で行った研究のポイントを整理している。最後に、第2章以降の論文の構成を述べている。

 第2章は「Speech synthesis」と題し、まず、波形接続合成を中心に音声合成を概観した上で、本論文のもととなる筆者らが開発した韓国語テキスト音声合成について述べ、特にTD-PSOLA(Time Doain-Pitch Synchronous Overlap Add)によるピッチ変換の手法を説明している。次に、TD-PSOLAによる合成音質の低下に言及し、本論文では、基本的にピッチ変換を行わないコーパスベース音声合成を実現するとしている。

 第3章は「Text and linguistic processing」と題し、まず、韓国語の音韻体系を説明している。次に、テキスト音声合成で必要となる音韻処理について整理している。

 第4章は「Corpus-based synthesis」と題し、まず、音声コーパスをトピック毎に用意する手法を提案するとともに音韻バランスを考慮して文を選択する手法を構築している。これによって、より合成環境に適合した音声素片を小さなコーパスで得られるとしている。次に、音声収録のやり方を説明し、音声認識技術を用いた収録音声の自動音素ラベリングとその精度について言及している。その上で、本論文で行ったラベリングの手修正について説明している。さらに、韻律的特徴の抽出について述べ、基本的な合成単位であるtri-phone(前後の音素環境を考慮した音素)をフレーズ境界の特徴によって整理することを行っている。また、音声データベースの設計と合成単位の動的選択、データベースにない合成単位の代用規範について説明している。最後に、合成音声の評価を行って手法の妥当性を検証している。

 第5章は「Prosodic phrasing」と題して、まず、本論文での合成の基本区間となるProsodic Phrase(韻律句)について述べた上で、その境界の分類について新しい提案を行っている。韻律的特徴を用いた回帰木(CART、Classification and Regression Tree)によってその自動抽出を行う手法を提案し、その性能を実験によって調べている。次に、テキスト音声合成で必要となる、テキストからのProsodic Phrase境界推定に着いて、品詞系列に着目する手法を提案し、その有効性を示している。

 第6章は「Prosodic annotation」と題し、当初、英語を対象として開発されたToBI(Tone and Break and Indices)を韓国語に適応させたKorean-ToBI(前章の提案によって修正したもの)を説明し、特にBoundary Toneの自動分類について考察している。イントネーションの変化パターンを類型化して表現し、それから得られるパラメータを用いることで82%の精度でBoundary Toneの自動分類ができたとしている。

 第7章は「Pruning unit instances」と題し、合成での使用頻度を重みとした重みつきVQ(Vector Quantization)で合成用音声コーパスからデータを削減する手法を開発している。聴取実験によって、音声合成品質の劣化がほとんどなく30%程度の削減が可能としている。

 第8章は「Conclusions」であって、本研究で得られた成果を要約し、将来の課題について述べている。

 以上を要するに、本論文は、韓国語を対象としたコーパスベーステキスト音声合成について、トピックに対応した合成用音声データベースの構築、韓国語に適した韻律ラベルの提案と自動抽出手法の開発、有効な音声データベースのプルーニング手法の開発等を行ったものである。本論文で開発された韓国語コーパスベース音声合成システムは、最高水準の合成品質を提供するものとして既に評価を受けている。コーパス音声合成の発展に大きく寄与したものであり、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク