学位論文要旨



No 127340
著者(漢字) 越智,景子
著者(英字)
著者(カナ) オチ,ケイコ
標題(和) テキスト音声合成のための基本周波数パターン生成過程モデルに基づく柔軟な韻律制御
標題(洋)
報告番号 127340
報告番号 甲27340
学位授与日 2011.05.19
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第345号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 相澤,清晴
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 石塚,満
 東京大学 教授 浅見,徹
 東京大学 教授 相田,仁
 東京大学 准教授 峯松,信明
内容要旨 要旨を表示する

話し言葉である音声言語は,人間と機械間のインターフェースにおける入出力手段として利用が広まりつつあり,高度に発達した情報機器の操作が,人間同士の意思伝達のようにより自然に行えるようになることを目指した研究が各分野で行われている.

テキスト音声合成とは,任意のテキストを音声信号に変換する技術である.音声出力を利用したインターフェースにおいては,発話内容を適切にユーザに伝達するためには,合成した音声の音質のみならず韻律的特徴の適切な制御が重要である.音声の韻律的特徴とは,アクセントやイントネーション,発話速度などである.これは音声の個々の音韻に対応する分節的特徴よりも広い範囲に現れる特徴であるため,超分節的特徴とも呼ばれ,文字言語にも含まれる語義・統語・意味などの言語情報の伝達は勿論,意図・態度・感情といったパラ言語情報・非言語情報の伝達にも重要な役割を果たしている.近年の研究により,長時間の音声資料の利用から音声合成音質には飛躍的な改善が見られているが,韻律の制御は依然大きな課題となっている.とくに,韻律的特徴の制御は多様な発話様式での音声合成といったより柔軟な合成技術を目指すうえでは,不可欠である.

従来は朗読調で均一な話し方による音声合成が一般的であったが,状況に応じて伝えるべき情報の強調や,発話様式を変化させた音声出力を実現することにより,ユーザにより円滑に情報の伝達が可能になると考えられる.しかし,既存のコーパスベース音声合成システムにおいて強調といった合成音声の発話様式の多様化を行うには,新たに同一話者で当該の様式での発話を収録しなおす必要があるという問題がある.これは多様で柔軟な発話様式の合成を行ううえでコーパスの膨大化を招く結果となる.

そこで,本研究では,アクセントや統語構造といった言語情報と明瞭な対応関係を持つ基本周波数パターン生成過程モデル(F0モデル)使用することにより,比較的少量のコーパスで多様な韻律制御を行う手法を提案する.

音声の韻律的特徴を表す主要な物理量は,基本周波数の時間変化パターン(F0パターン),単音の持続時間の長さである音韻継続長,息継ぎである休止,声の大きさに対応するパワーが挙げられる.ピッチ・アクセント言語である日本語ではとくにF0パターンが重要な役割を果たしているといえる.

F0モデルとは,F0パターンをフレーズ成分とアクセント成分の重畳として表現するもので,それぞれの成分が発話内容のテキストの言語情報と明確な対応を持っている.また,各成分はフレーズ制御機構,アクセント制御機構に対するフレーズ指令,アクセント指令という離散的な信号列の入力結果としてモデル化されるため,指令の生起時刻と大きさという少ないパラメータでF0パターンの曲線を近似できるという利点がある.

F0モデルの利点を活かし,我々はテキストの入力から韻律的特徴量を制御する手法を開発した.すなわち,休止の位置および長さ,音韻継続長,F0モデルの指令のパラメータを各韻律的特徴間の密接な関係を考慮して推定することによって高品質な韻律を生成するものである.

さらに,柔軟な音声合成の実現を目指して強調のための焦点を付与した音声を対象とし,既に開発したF0モデルの枠組みによる韻律制御手法を応用した合成手法の開発を行った.発話の焦点は話者が特に強調したい部分に置かれるもので,音声合成において伝わりやすい音声出力を目指すうえでその制御は重要な課題であるといえる.

そこで,韻律のコーパスを用いた手法により任意のテキストから指定した位置に焦点を置いた音声の合成を行う手法を開発した.焦点をある箇所に置くことによって生じる韻律的特徴の変化に着目し,既存の焦点を想定しない音声合成に焦点制御機能を付加するものである.特定の文節に焦点を当てて読み上げた音声とどこにも焦点を指定せずに読み上げた音声を収録し,F0パターンF0モデルを用いて定量的に記述し,それをもとに,比較的少量のコーパスから任意のテキストと強調する文節の指定した音声を合成するシステムを開発した.

提案手法では,焦点のある発声とない発声についてF0 モデルの指令の差分について機械学習を行う.差分により焦点付与を想定しない韻律制御(ベースライン手法)で生成した指令を修正することによって,焦点付与を実現する.それにより少量のコーパスで学習が可能であり,必ずしもベースラインと同じ話者の音声を用意する必要がない.さらに,この焦点制御におけるF0 モデルの差分の推定値を用いて強調の程度を補間する手法を開発した.

審査要旨 要旨を表示する

本論文は「テキスト音声合成のための基本周波数パターン生成過程モデルに基づく柔軟な韻律制御」と題し、テキスト音声合成において、基本周波数パターン生成過程モデルに基づく韻律制御を行うことによって、従来の様な多量の音声コーパスによらない柔軟な音声合成が可能なことを示し、焦点制御手法を開発したもので、全7章からなる。

第1章は「序論」であって、本研究が、音声の韻律を中心にしたものであって、基本周波数パターン生成過程モデルを導入することにより、柔軟な合成手法を実現するものであるという、本論文の意義、目的を述べている。また章の構成が示されている。

第2章は「音声合成のための要素技術」と題し、本論文で開発する音声合成システムの要素技術として、HMM音声合成、形態素解析・構文解析・アクセント結合規則、音声の韻律の特徴、韻律情報の記述(ToBIなど)、基本周波数パターン生成過程モデルについて、それぞれ概説している。

第3章は「柔軟な音声合成のための諸研究」と題し、種々の話し方を実現する柔軟な音声合成のための従来の研究を説明している。特に、HMM音声合成での適応手法について述べ、発話の強調を実現する試みなどについて概説している。さらに、本論文の主体である基本周波数パターン生成過程モデルに基づくコーパスベース韻律制御について述べ、感情を含む音声合成の例を紹介している。

第4章は「ベースライン韻律制御」と題し、日本語音声の韻律構造について述べた後、基本周波数パターン生成過程モデルに基づくコーパスベース韻律制御について、その内容の詳細を説明している。この手法は、テキストから得られる言語情報等を入力とした2分木により、休止位置と長さ、音韻継続長、基本周波数パターン生成過程モデルパラメータの順に推定するものである。基本周波数パターン生成過程モデルパラメータについては、フレーズ指令、アクセント指令の順に推定する。

第5章は「焦点の制御」と題し、まず、発話の強調を実現する韻律の焦点について述べ、焦点の位置による韻律の変化の様子について、自然音声の分析結果を示しながら議論している。次に、焦点による韻律の違いを基本周波数パターン生成過程モデルの指令の差分として捉える手法を提案し、フレーズ指令、アクセント指令の大きさの差分を、2分木により推定する枠組みを開発している。特に焦点を置かないベースライン音声合成のフレーズ指令、アクセント指令の大きさを差分によって変更することにより、意図した焦点が実現できる。また、差分に適宜係数をかけることにより、強調の程度の内挿、外挿を行うことを提案している。

第6章は、「音声合成実験」と題し、HMM音声合成システムの韻律を提案手法で生成したもので置き換える合成手法により、適宜の文節に焦点を置いた音声合成を行い、聴取実験により手法の有効性を実証している。なお、差分の学習のコーパスは、ベースライン音声合成の話者であることを必要とせず、少量で効果が発揮できることを、確認している。

第7章は、「結論」であって、各章の概要を述べ、今後の発展について議論している。

以上を要するに、本論文は、基本周波数パターン生成過程のモデルの枠組みで韻律を制御することにより、指令の差分として発話の違いを捉える事が可能となり、それにより、少量のコーパスで韻律の柔軟な生成が出来ることを提案し、実際に、発話の焦点が少量のコーパスの学習により実現可能なことを示したもので、表現力豊かな音声合成の発展に大きく寄与したものであり、電子情報学に貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク