学位論文要旨



No 115138
著者(漢字) 川波,弘道
著者(英字)
著者(カナ) カワナミ,ヒロミチ
標題(和) 対話調音声合成における韻律的特徴制御に関する研究
標題(洋)
報告番号 115138
報告番号 甲15138
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4633号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 原島,博
 東京大学 教授 西田,豊明
 東京大学 教授 相田,仁
 東京大学 助教授 森川,博之
 東京大学 講師 舘村,純一
内容要旨 1研究の目的

 人間の用いる通信手段として音声には次のような利点がある.(1)それを用いる際に特殊な教育が不要である,(2)人間の姿勢や動きを束縛しない,(3)送受信時の人間の器官にかかる負担が小さい.これらの利点を活用するために音声を人間と機器とのインタフェイスに音声を用いる試みは古くからなされてきたが近年の計算機能力の著しい向上により音声対話システム,テキストの読み上げシステム等は実用レベルとなった.

 音声対話システムはその用途によって様々なレベルがあるが,基本的に現在のシステムは応答内容の構造を限定することによって,枠組としてあらかじめ用意されている音声中の回答にあたる部分に回答すべき内容の音声を適宜埋め込んで応答音声を生成する形で実現されている.また計算機上のテキストを読み上げる(TTS,Text-to-Speech)システムでは任意内容のテキストを音声に変換する必要がある.この実現のためには音素長程度の単位で蓄積した音声を適宜接続して音声を生成する必要がある.

 前者は発話内容が限定されるがあらかじめ録音した人間の音声が利用できる.後者は任意内容が出力されるがその品質は蓄積単位そのものとそれらの接続部の音質の点で劣るというのが従来の見方であった.しかし記憶装置の大容量化により大量の音声波形の蓄積が可能になったことや演算能力の高速化によって,それぞれのシステムにおいて自然音声に近い音質でより多様な出力音声の実現が可能となった.

 ただし現在のシステムでは音声のイントネーションやリズムといった超分節的な特徴の制御の観点からは,辞書的なアクセント等の最低限の対応しかなされていない.これらの特徴は文字内容に対応する音韻的特徴と対照させて,韻律的特徴と呼ばれる.そして,統語情報や談話情報等の高次の言語情報や,感性情報すなわち話者の態度・意図等のパラ(準)言語情報および話者の個人性や感情等の非言語情報は,音声言語特有の特徴である韻律的特徴において主として表現される.計算機能力や音声合成手法の改善により韻律的特徴を制御する手法は整備されてきたが,合成音声にどのような韻律的特徴を与えるのが適切であるかという韻律生成手法はいまだ不整備のままである.

 本研究では合成音声の今後の幅広い利用の可能性を考慮し,対話調音声および感性情報音声の韻律的特徴を数量化I類等を用いて高次情報と韻律の関係を分析し,その結果に基づいて韻律生成規則を作成した.そして提案した規則によって作成された合成音声は,従来手法と比較してそれらの情報が明瞭に表現されているという評価が得られた.

2分析手法

 韻律的特徴の物理的パラメータとして音声波形の基本周波数(F0,声の高さに対応する),F0パターン(F0の時間変化パターン),強度,発話速度,休止長等がある.日本語音声においてはF0パターンと音源強度の間には強い相関があることが知られているためF0パターンと発話速度に注目した

 F0パターンについては生理的な発声機構に基づいた基本周波数生成過程重畳モデル(F0モデル)が提案されている.このモデルはF0パターンと言語情報との対応づけが容易で,韻律的特徴を定量的に表現できるという利点がある.本研究でもF0モデルを用いることとした.モデルパラメータのうち局所的なアクセントの大きさに対応するアクセント指令の大きさ(Aa),大局的なイントネーションの起伏の大きさに対応するフレーズ指令の大きさ(Ap),重畳モデルのベースラインとなる周波数(F0min)を分析対象とした.

 発話速度については,音素固有の持続時間の特徴や音声言語の一般的な持続時間の特徴の影響を除去して対象音声の固有の特徴を抽出することを目的として,読み上げ調音声における持続時間を基準とした対象音声の対応する区間の持続時間の伸縮率を測定した.

 また発話速度の時間変化を講査するためには音声単位を定義する必要がある.そこで音声において文の構造が最も明確に表れるのはF0パターンであるという立場から,F0パターン構造に基づいて定義される音声単位として表1に示す韻律単位を用いた[1].これらの韻律単位とモーラ(拍,基本的にかな1文字に対応)を対象として階層的な発話速度変化分析を行った.

表1:F0モデルにより定義される韻律単位
3対話調音声の韻律分析と規則化

 単語の係受けである統語情報や話題の焦点部分の情報等の談話情報が明確に現れた音声として,演劇活動をしている男女の東京方言話者があらかじめ用意した協調的な対話内容のテキスト(54文,70文からなる2セット)に基づいて行った模擬対話音声を対話調音声資料として用いた.比較基準として用いる読み上げ調音声としては,同一内容を談話の影響を排除するために文の順序をランダムに配置したテキストを読み上げた音声を収録し,読み上げ調音声資料とした.

 図1の例では対話調音声において焦点が当てられた部分のF0が強調されており,図2の例では対話調音声において顕著に発話速度が短縮されている.

 アクセント指令の大きさ(Aa),フレーズ指令の大きさ(Ap)に対して,数量化I類を用いた制御要因分析を行った.分析の結果,高い相関が得られたアイテムをパラメータ値推定に使用した.規則に使用したアイテムを表2に示す.

図表図1:「苗場まで車で三時間かかります」のF0パターン(左:読み上げ調音声,右:対話調音声). / 図2:「石打丸山というスキー場をご存知ですか」のF0パターン(左:読み上げ調音声,右:対話調音声). / 表2:対話調音声のF0モデルパラメータ推定に使用するアイテム.

 発話速度分析にあたっては,韻律構造との対応に基づく持続時間比較の必要性から,韻律構造が同一の音声資料を用いた.

 分析は各々の韻律単位中で一段階下位の韻律単位の伸縮率がどのような時間変化パターンを示すかを調査し,数量化I類による下位単位の伸縮率の分析を行った.このとき区間内の相対的な発話速度変化を調査するために区間全体の伸縮率で正規化した値を用いた.

 分析結果から,韻律文全体の構成モーラ数に基づく伸縮率を決定した後,各韻律句の伸縮率を決定し,最後におよび韻律句ごとに内部のモーラの伸縮率を決定するという手法が有効であると考えられる.韻律句の伸縮率の推定に用いるアイテムと韻律句中のモーラの伸縮率の推定に使用するアイテムを表3に示す.

表3:対話調音声の発話速度推定に使用するアイテム

 対話調音声の韻律生成は次の処理で行う.

 (1)生成内容のモーラ数および句読点の位置から,韻律構造を決定する.この決定には従来用いてきた,読み上げ調音声のための韻律構造決定規則[2]を使用する.

 (2)F0モデルパラメータAp,Aaを決定する.数量化I類分析において相関係数が極端に低かったアイテムを除いた全アイテムを用いる.

 (3)読み上げ調音声の場合の韻律文持続時間を,各構成音素の持続時間の和として推定する.

 (4)韻律文の持続時間伸縮率を韻律文の構成モーラ数に応じて決定する.

 (5)各韻律句毎にモーラの持続時間伸縮率を,数量化I類分析結果を用いて決定する.

4感性情報音声の韻律分析と規則化

 感性情報音声資料として演劇活動をしている男女の東京方言話者がテキストに基づいて行った模擬対話および単独に発声した音声を収録し,聴取実験によりより適切に表現されていると判断された男性話者2名(TI,YY),女性話者1名(KM)の音声を分析に用いた.

 音声資料の内容は,

 ・2つの態度(丁寧,ぞんざい),3つの感情(怒り,喜び,悲しみ)を個別に込めて発声した感性情報音声.

 ・3つの感情(怒り,喜び,悲しみ)の大きさを適宜変えて収録した音声.

 の2種類である.それぞれ,感性情報音声の一般的特徴と感情の強さと韻律の変化の観察を目的としたものである.

 感性情報音声の韻律の例として,図3に「駅まで迎えにいきます」に特定の男性話者が怒り,喜び,悲しみをこめて発声した音声のF0パターンを示す.それぞれ比較の基準となる読み上げ調音声(no emotions)と4段階に強さを変えた感情音声(level 1からlevel 4,4が最も強い)のF0パターンを示す.

図3:「駅まで迎えに行きます」の怒り,喜び,悲しみ音声のF0パターン(話者TI).

 本研究では試験的に,感情音声の韻律規則の有効性を調査するために,主として分析に用いた2種の文「駅まで迎えに行きます」,「車で迎えに行きます」と同じ韻律構造(2個のフレーズ成分上にアクセント成分が1個ずつ重畳される)を持つ文の合成に限定し,各感性情報音声から抽出されたF0モデルパラメータと発話速度変化パターンを適用した音声を作成した.文頭のアクセントのアクセントが頭高型の場合は「駅まで迎えに行きます」のパラメータ値を用い,平板型の場合は「車で迎えに行きます」のパラメータ値を用いた.

5実験結果

 本規則により作成した対話調合成音声と従来手法[3]のそれとを用いて比較聴取実験を行った.その結果従来の合成音声よりもより人間の対話らしい自然性が得られているとの評価を得た.また感情合成音声の判別実験結果から怒り,喜び,悲しみともに表現可能であることが確認された.

参考文献[1]Fujisaki,H.,Hirose,K.and Takahashi,N.,"Manifestation of linguistic information in the voice fundamental frequency contours of spoken Japanese",IEICE Trans.Fundamental of Electronics,Communications and Computer Sciences,Vol.E76-A,No.11pp.1919-1926(1993-11).[2]河合恒,"日本語テキストからの音声合成システム,"東京大学大学院工学系研究科 学位論文(1988-12)[3]川波弘道,"対話音声の韻律的特徴の定量的分析と生成規則の構築,"東京大学大学院工学系研究科 修士論文(1997-2)
審査要旨

 本論文は「対話調音声合成における韻律的特徴制御に関する研究」と題し、日本語の対話調音声の韻律的特徴が朗読調音声のそれとどのように異なるかを定量的に分析した上で、得られた結果に基づいて、対話調音声合成のための韻律制御規則を構築したものであって全8章からなる。

 第1章は「序論」であって、まず、読み上げと対話における音声の韻律の違いに言及し、前者を朗読調、後者を対話調と呼ぶこととした上で、本論文の目的がこの違いの本質を見出すことにあるとしている。さらに、現在の対話システムの音声出力が朗読調音声となっていることの問題点を指摘し、本論文の目的が対話調音声の実現にもあるとしている。次に従来の対話音声の韻律に関しての研究をまとめ、本論文の位置付けを明確にしている。さらに、第2章以降の論文の構成を述べている。

 第2章は「韻律的特徴と分析手法」と題し、まず、音声による情報伝達における韻律の役割を系統的に整理した上で、特に基本周波数パターンの特徴とそれによって表現される韻律構造、さらにはそれと言語情報との対応を明確にしている。次に、分析対象とする音声資料について話者、発話内容、収録方法等を説明している。対話調音声としては種々のものが考えられるが、ここでは、スキー場案内をトピックとして模擬対話を行ったものを対象としたとしている。次に、本論文で着目する韻律的特徴が基本周波数パターンと発話速度であるとし、それらを表現するパラメータとしてのF0パターンモデルパラメータとモーラ持続時間を採用している。さらに、これらのパラメータを音声資料から求める手法について説明している。以上により、本論文での研究の流れを系統的に示している。

 第3章は「対話調音声の発話速度の特徴分析」と題して、まず、対話調音声と朗読調音声の発話速度の違いをモーラ持続時間に着目して表わすこととし、その指標としてモーラ短縮率を定義している。次に、モーラ短縮率の全体的傾向、あるいは文中での変化の様子をまとめている。それに基づき、韻律構造との関係で詳細な分析が必要とし、基本周波数パターンによって定義される韻律単位とモーラ短縮率との間に階層的な関係があることを指摘している。特に、韻律句中でのモーラ短縮率の変化に特徴的な傾向があるとしている。

 第4章は「発話速度の数量化分析」と題して、まず朗読調音声と対話調音声とにおける各韻律単位の長さの違いを表わす指標として伸縮率を定義している。次に、韻律文、韻律句、モーラの各単位についてその伸縮率を数量化I類により分析し、第4章で得られた傾向と一致する結果が得られたとしている。分析に際しての設定アイテムは、位置、モーラ数、アクセント型などである。

 第5章は「韻律生成規則」と題して、第4章、第5章で得られた結果および、既に得られている基本周波数パターンに関する知見から、対話調音声合成のための韻律制御規則を構築している。この規則は、基本周波数パターンに関しては、語の重要度、新規性を考慮に入れてフレーズ成分、アクセント成分等の大きさを制御するものであって、制御規則の数値的な値の決定は数量化分析によっている。一方、発話速度に関しては、まず、朗読調の音声について各モーラ長を決め、次に、それを韻律文、韻律句単位で制御することを基本とする規則を開発している。

 第6章は「評価」であって、第6章で得られた制御規則を用いて対話調音声を合成し、聴取実験の結果、対話らしい音声が得られたとして規則の妥当性を指摘している。

 第7章は「結論」であって、本研究で得られた成果を要約し、将来の課題について言及している。

 以上を要するに、本論文は、日本語の対話調音声の韻律的特徴、特に従来研究が進んでいなかった発話速度について、主に朗読調音声のそれとの比較の観点から詳細な分析を行い、得られた結果に基づいて、対話調音声合成のための韻律制御規則を構築し、聴取実験によりその妥当性を示したものである。比較に際し、韻律構造を導入して見通しのいい結果を得るなどの顕著な成果をあげており、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク