学位論文要旨



No 116076
著者(漢字) 桜井,淳宏
著者(英字)
著者(カナ) サクライ,アツヒロ
標題(和) データベースに基づくテキストからの基本周波数パターンの生成
標題(洋) Data-Driven Generation of Fundamental Frequency Contours from Text
報告番号 116076
報告番号 甲16076
学位授与日 2001.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4913号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 柴田,直
 東京大学 教授 相田,仁
 東京大学 助教授 廣瀬,明
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

概要

 テキスト音声変換(TTS)における難題の一つは韻律的特徴、特に基本周波数(F0)パターンの生成である。従来のTTSシステムはルールを用いてF0パターンの生成を行なってきたが、韻律的特徴の生成ルールにはヒューリスティックスに依存する部分が大きく、最近はそれに対してデータベースの学習に基づく手法(いわゆるデータドリブン手法)を導入する傾向が見られる。データドリブン手法とは、F0パターンの生成に必要な言語情報とそれに対応するF0パターンの例をデータベース(以下韻律データベース)として収集し、両者の量的な関係を自動的に学習しようとする手法のことである。しかしながら、韻律的特徴には本質的に様々な要因による変動があり、テキストから抽出可能な言語情報と韻律的特徴との関係を導出することは難しい。よって、提案されているデータドリブン手法のほとんどはその関係をうまくとらえることができない。

このような観点から、データドリブン手法を実現するためには、何らかの制限を導入することによって学習効率を上げる他、大量のデータベースの作成を可能にする手段や学習方式を開発する必要がある。

そこで、本研究では、データベースに基づくF0パターンの生成を実現すべく、いくつかの手法やアルゴリズムを提案する。まず、前半には韻律データベースの様式やその作成に役立つ一連のアルゴリズムを提案する。提案している韻律データベースの大きな特徴はF0パターンの生成過程モデル(以下F0モデル)のパラメータを利用することである。F0モデルは少ないパラメータで基本周波数パターンを表現できるため、より効率よい学習が可能になる。一方、韻律データベースを作成する際、問題となるのは大量のデータに対応するF0モデルのパラメータ値を推定するために必要な労力を減らすことであるが、F0モデルのパラメータ値を自動的に(若しくは半自動的に)推定できることが望ましい。そこで、この問題を解決するためのアルゴリズムを提案する。

後半には学習・生成問題に焦点をあて、上記の韻律データベースを利用してF0パターンの生成を実現するための手法を提案する。その一つはニューラルネットワーク或いは2分木を用いた推定モジュールにより、F0モデルのパラメータを推定し、推定したパラメータをもとにF0パターンを生成する手法である。もう一つは、モーラ単位のF0パターンの形状と平均値をコードブック化し、それらのコードを出力する離散HMMを用いてF0パターンをモデル化・生成する手法である。以下、データベース作成の段階から研究の内容をより詳しく説明する。

韻律データベースの作成に関する研究

 データドリブン方式の学習効率をあげる方法として、F0パターンを直接表現する代りにF0モデルのパラメータを用いることが考えられる。そこで、F0モデルのパラメータを含む韻律データベースの仕様や作成について検討し、F0モデルのパラメータを用いて半自動的にラベリングするための手法を提案する。この手法は、F0パターンの形状から韻律境界(フレーズ境界およびアクセント境界)を別々に抽出することに基づく。フレーズ境界とアクセント境界はそれぞれF0モデルのフレーズ指令とアクセント指令に対応する境界である。

次に、フレーズ・アクセント境界やその他種々の言語情報(主に文節境界等)を用いてF0モデルの指令の発生時刻の初期値を決める。最後に、実測の基本周波数パターンを基準としたAbS(合成による分析)処理を行ない、すべてのパラメータ(指令の大きさと発生時刻)の微調整をする。

以上のラベリング手法を評価した結果、人間による修正作業と組み合わせれば効率良くデータベースのラベリングを行なうことができるほか、言語情報(品詞、アクセント型等)を更に導入することによって自動推定の精度が向上することがわかった。そこで、ラベリング過程において言語情報を積極的に利用する試みとして、複合名詞のみのF0モデルパラメータを自動的に求める手法を提案する。

ニューラルネットワーク及び2分木によるF0モデルパラメータの推定

 学習用の韻律データベースを作成した後、次はデータベースからの学習に基づくF0パターンの生成手法について検討する。ここでは、ニューラルネットワーク或いは2分木に基づく推定アルゴリズムを用いて、テキストから抽出される言語情報をもとにF0モデルのパラメータを推定する手法を提案する。推定の基本単位は韻律語(一つのアクセント指令に相当する文のかたまり)とし、その言語的な属性とF0モデルパラメータとの量的な関係をデータベースから学習する。学習後は、テキストから抽出した韻律語及びその言語的属性のみを入力としてF0モデルパラメータを推定し、そこからF0パターンを生成する。ただし、テキストの形態素解析処理は既に行なわれているものとする他、音素の持続時間も既知であると仮定する。入力に用いる韻律語の属性としてはその位置、アクセント型および構成単語数、更に単語の品詞や活用に関する情報を利用する。推定する特徴量はF0モデルパラメータのタイミングや大きさである。

最初に提案する学習手法はニューラルネットワークに基づくものである。ニューラルネットワークは非線形な問題に向いているため、言語情報からF0モデルパラメータへのマッピングに適切であると思われる。ここでは3種類のニューラルネットワーク構造(エルマン型、ジョルダン型、多層パーセプトロン型)を利用し、それぞれによる結果を比較する。

多層パーセプトロンは最も一般的に応用される構造である。エルマン型とジョルダン型はいずれも再帰構造であるが、エルマン型は隠れ層から、ジョルダン型は出力層からのフィードバックを有する。中国語やドイツ語において、フィードバックを有するニューラルネットワークを用いてF0パターンの生成を行なおうとする研究例はあるが、そこでは音節単位でF0パターンを処理しているため、フィードバックはパターンの連続性を維持する役割を果たしている。一方、本手法では連続性はF0モデルによって自動的に確保されているため、フィードバックは単に前後の韻律語の影響を表そうとしている。

ニューラルネットワークによる手法を評価するため、自然音声から抽出したF0パターンとの平均自乗誤差(MSE誤差)を求める。実験では構造や隠れ層の要素の数による変動がそれほど見られなかったが、10要素の隠れ層をもつエルマン型ネットワークによるMSE誤差が最小となった。

一方、もう一つの学習方式として2分木を用いた手法がある。ここでは、ニューラルネットワークによる手法と比較するために2分木に基づく推定モジュールを構築、評価する。

2分木によってモデル化できる問題の種類は限られているが、学習の結果として得られる知識の可視性に関してはニューラルネットワークより優れている。推定したF0モデルパラメータを用いてF0パターンを生成し、自然音声から抽出したパターンとのMSE誤差を求めた結果、ニューラルネットワークによる結果とほぼ同程度であることがわかった。更に、ニューラルネットワーク方式で得られた代表的なF0パターンと比較するために簡単な聴取実験を行ない、ニューラルネットワークの方が多少高い評価を得た。最後に、従来のルールに基づく手法と比べても、両手法とも比較的良い品質のF0パターンを生成できることがわかった。

モーラ遷移に基づく離散HMMによるF0パターンのモデル化と生成

 以上述べた手法はいずれもF0モデルパラメータに基づくものであるが、F0モデルパラメータが付与されたデータベースの存在が必須となる。一方、F0モデルパラメータのラベリングを必要としない方法として、モーラF0パターンのクラスタリングと離散隠れマルコフモデル(HMM)に基づくF0パターンのモデル化・生成手法を提案し、その有効性について検討する。

この手法は、韻律語を一つのHMMでモデル化し、その状態遷移をモーラ遷移と対応付ける。HMMの出力は2次元ベクトルであり、一つのコードはモーラ単位のF0パターンを近似的に表し、もう一つはモーラ単位の平均F0の差分を離散化したものである。HMMの学習は通常の音声認識アルゴリズムと同様の方法で行なう。

学習を行なった後、HMMからF0パターンを生成するが、Viterbiアルゴリズムに基づく方法を用いる。Viterbiアルゴリズムは本来、音声認識において、任意な出力符号系列に対してその尤度及び生成過程に対応する最適パスを推定するために用いられる。一方、HMMから出力系列を生成したい場合、出力符号系列の長さは既知であるものの、出力符号系列そのものが与えられていないため、Viterbiアルゴリズムをそのまま利用できない。ここではViterbiアルゴリズムで用いられる距離関数を変更することによって最適パス及び最適出力ベクトル系列を求め、それを用いてF0パターンを生成する。評価実験によると、アクセント核の位置等、韻律的特徴をモデル化することができるが、F0モデルを用いた手法と比較すると、必要とする学習データが大きいことがわかった。一方、F0モデルパラメータを含むデータベースを必要としないため、データベース作成の自動化をはかれる。

審査要旨 要旨を表示する

 本論文は「Data-Driven Generation of Fundamental Frequency Contours from Text(データベースに基づくテキストからの基本周波数パターンの生成)」と題し、音声合成において重要な課題である韻律制御について、テキストを入力とし、韻律ラベリングされた音声データベースから統計的手法により自然な基本周波数パターンを自動生成する手法を構築したものであって、全10章からなり、英文で記述されている。基本周波数パターンの生成のみならず、従来から問題とされている韻律ラベリングの手法についても研究対象としている。

 第1章は[Introduction」であって、まず、高品質テキスト音声合成における韻律の重要性を指摘した上で、従来のルールベース方式とデータ主導方式の特徴、問題を明確にし、本論文で提案する手法の位置付けを明確にしている。さらに、第2章以降の論文の構成を述べている。

 第2章は「A Linguistic and Prosodic Database Containing Parameters of Superpositional Command-Response F0 model」と題し、まず、研究遂行上、必須となる韻律ラベリングされた音声データベースについて、従来のラベリングの問題点を整理した上で、基本周波数パターンの重畳モデル(F0モデル)に基づく韻律の新しい階層的記述法を提案している。

 第3章は「Automatic Labeling of a Continuous Speech Database with F0 Model Parameters」と題して、第2章で提案したラベリングを自動的に行う手法を開発している。従来のF0パターンの起伏に着目する手法の限界を指摘し、データの言語情報を利用し、ラベリングに際して制約を付加する手法を開発している。

 第4章は「Automatic Labeling of Accent Sandhi Types of Compound Nouns」と題して、音声合成の韻律制御で問題となる連続音声におけるアクセントサンディ現象にデータ主導の手法で対応するためのアクセントサンディデータベースの自動作成手法を開発している。

 第5章は「A Linguistic and Prosodic Database with Timing Parameters Derived from a J-ToBI database」と題して、従来のJ-ToBIにより記述された韻律ラベルをもとに、A-b-S分析を併用して、第2章で提案したF0モデルに基づく韻律ラベリングを行う手法を開発し、それによって得たデータを第6章以降での韻律合成に利用するとしている。

 第6章は「Data-Driven Intonation Modeling Using the Parameters of the F0 Model」であって、テキストのアクセント句についての情報をニューラルネットワークの入力とし、F0モデルのパラメータを推定して出力する手法を開発している。F0モデルに基づく制約により、少量のデータベースを用いたニューラルネットワークの学習で、F0パターンの高精度の生成を達成している。

 第7章は「Improvements of the Basic Configuration」であって、第6章での手法において、入力パラメータの統合を行い、性能の向上を達成している。

 第8章は「Intonation Modeling Based on Binary Tree Regression」であって、回帰2分木を用いた学習によりFoモデルパラメータを自動生成しており、その結果をニューラルネットワークによる手法に反映することでさらなる性能向上が図れるとしている。

 第9章は「Modeling and Generation of Accent Phrase F0 Contours Based on Hidden Markov Models Synchronized at Mora Units」であって、モーラ単位でF0パターンを表現するHMMを用いてF0パターンを生成する手法を開発している。

 第10章は「Conclusion」であって、本研究で得られた成果を要約し、特にニューラルネットに基づく手法の有効性に言及した上で、将来の課題について述べている。

 以上を要するに、本論文は、合成音声の品質を決める重要な要因である韻律の制御について、韻律ラベリングされた音声データベースを用いた学習により、テキストを入力として基本周波数パターンを自動生成する手法を開発したものであり、データ主導の手法において、モデルから得られる制約を取り入れることによって、自然な合成音声の生成を達成している。必要となる韻律ラベリングの方法、自動化等についても言及されており、音声合成分野の発展に大きく寄与するものであり、電子情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク