学位論文要旨



No 119540
著者(漢字) 成澤,修一
著者(英字)
著者(カナ) ナルサワ,シュウイチ
標題(和) 音声の基本周波数パターン生成過程モデルの特徴パラメータ自動抽出手法とそれを用いたコーパスベース韻律生成
標題(洋)
報告番号 119540
報告番号 甲19540
学位授与日 2004.03.25
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第21号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 助教授 峯松,信明
 東京大学 教授 西田,豊明
 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 広瀬,啓吉
 東京大学 教授 相田,仁
 東京大学 助教授 黒橋,禎夫
内容要旨 要旨を表示する

近年,計算機技術の急速な発展と情報ネットワークの広汎な拡大・普及に伴い,機械により処理・蓄積された膨大な量の情報を常時・至る所で利用することが可能になりつつある.それに伴って,これらの情報を利用する人間との間に情報の迅速・円滑な授受がますます必要とされるようになった.特に音声言語は, 人間同士の情報の授受において最も容易で迅速な媒体であるため,これを人間と機械の間の情報交換手段として活用するために,現在,機械からの音声言語の出力(音声合成)や機械への音声言語による入力(音声認識)の技術が鋭意研究され,徐々に実用化に向かっている.しかしながら従来の音声言語入出力技術は,韻律的特徴をほとんど利用していなかったため,十分に高度な性能を達成し得なかった.

音声の韻律的特徴は,本来文字言語にも含まれる語義・統語・意味・談話などの情報(言語情報)のみならず,文字言語には陽に含まれない話者の意図や態度に関する情報(パラ言語情報)や,話者の個体差,性別,年齢,感情などに関する情報(非言語情報)をも含んでいる.したがって,高度な音声入出力技術の実現には,まず,これらの情報と韻律的特徴との関係についての知識を獲得することが不可欠であり,そのためには,大量の音声データの統計的な性質を利用する分析手法が有力である.しかしながら,音声の韻律的特徴は,例えば基本周波数の時間的変化のパターン(F0パターン)のように,大量のコーパスを音声波形やスペクトルといった次元でそのまま用いるのでは正確には表現できないものである.したがって,それらを生成する段階,つまり,対象とする現象をモデル化し,そのモデルパラメータの次元で表現することが必要となる.本論文では,このような見地から,F0パターンを生成するモデルとそのパラメータに着目し,音声信号からそのパラメータを自動的に抽出する手法と,それを音声言語情報処理に利用する手法を検討した.

音声の韻律的特徴を表現する主要な物理量としては,声帯振動の基本周波数(F0),単音の持続時間長,音源の強度が挙げられる.日本語をはじめ多くの言語では,特にF0パターンが構文や意味の伝達に重要な役割を果たし,藤崎らによる生成過程モデルを用いれば,少数のパラメータ(フレーズ指令およびアクセント指令の生起時点とそれらの大きさ)によってその特徴を正確・定量的に表現しうることが広く知られている.しかしながら,観測されたF0パターンからモデルのパラメータを抽出することは,いわゆる逆問題であって,この場合には解析的に解くことはできず,モデルのパラメータの初期値を出発点とした逐次近似を必要とする.この場合,高精度のパラメータを迅速に抽出するには適切な初期値の設定が不可欠であるが,従来はこれを人手によって行っていたため,大量の音声資料の自動的処理は困難であった.もし,適切な初期値を自動的に求めることが可能になれば,パラメータ抽出にかかる労力や時間が軽減されるだけでなく,大量の韻律パラメータが得られるため,生成過程モデルに基づく大規模な韻律コーパスの構築も可能になる.したがって,実測のF0パターンからパラメータの初期値を自動的に決定し,さらにそれに基づいて高精度のパラメータ抽出を自動的に行う処理が必要である.

実測のF0パターンには,F0の抽出誤りや子音調音によるF0の乱れなど,生成過程モデルで考慮していない現象や,F0の存在しない無声・無音区間が含まれているため,パラメータ抽出に先立ち,これらを修正・除去・補間することが重要である.一方,フレーズ成分の時間的変化はアクセント成分よりもはるかに緩やかであるため,F0パターンの変曲点の位置はアクセント成分のそれとほぼ一致する.したがって,実測のF0パターンから上述の変動要因の影響を除去する前処理を行ったうえで,それを至るところ連続かつ微分可能な3次曲線で区分的に近似すれば,その変曲点の位置は,その曲線の1次導関数の極値の位置として,容易に求めることができる.このような近似を行うことにより,解析的には解けなかった逆問題が1次方程式の解を求める問題に帰着される.

以上の観点から,本論文では,実測されたF0パターンを至るところで連続かつ微分可能な曲線によって近似するための処理(前処理),得られた曲線からアクセント指令とフレーズ指令のパラメータの初期値を決定するための処理(初期値抽出処理),さらに,それらの初期値をもとに逐次近似によりパラメータの最適値を求めるための処理(最適化処理),の3段階の処理からなる手法を提案した.

東京方言話者の日本語朗読音声として,NHK85文(書物の1章の読み上げ.男声話者1名: 資料A-1,女性話者1名: 資料A-2)とATR503文(個々には無関係な文.男声話者1名: 資料B)を対象として分析を行った.韻律研究に深く携わっているエキスパートが抽出した指令を正解として欠落誤り率・挿入誤り率を算出した結果,フレーズ指令とアクセント指令について,資料A-1では,11.3%と7.6%,19.7%と13.3%,資料A-2では,14.0%と9.3%,32.5%と30.0%,資料Bでは,6.1%と16.5%,16.2%と7.8%,であった.また,この手法の適用性を日本語以外の言語のF0パターンについても検証するため,英語50文(男性2名,女性2名)とポルトガル語3文(ただし各5回の発話.男性3名,女性2名)の音声資料を対象とした分析を行った結果,指令抽出に関する欠落誤り率・挿入誤り率は,英語音声資料では, フレーズ指令で35.7%と15.5%,アクセント指令で14.5%と17.5%,であった.

なお,上記の方法を用いれば,生成過程モデルのパラメータを自動的に抽出する事が可能であるが,音声合成・認識への応用を考えた場合,テキストから得られる言語情報と対応の取れた指令をいかにして推定するかが重要である.したがってさらに,日本語を対象として,テキストから得られる文節の係り受け情報と語のアクセント型に関する情報を,上述の手法に組みこむ方法を提案した.前述の日本語音声資料A-1 を対象として実験を行った結果,言語情報を利用することにより,欠落誤り率・挿入誤り率が,フレーズ指令に関してはそれぞれ1.1%と0.7%,アクセント指令に関してはそれぞれ7.7%と2.6%減少することを確認した.

本研究で提案した生成過程モデルパラメータ自動抽出手法は,韻律生成をはじめとして,韻律構造の推定,感情の推定など,音声言語処理における多くの課題に適用できるが,本論文では,これを用いて韻律情報を付与した音声コーパスを作成し,さらにそのコーパスを用いてF0パターンの合成システムを構築した.

現在,全世界で多数の大規模な音声コーパスが構築されているが,それらのコーパスのほとんどは分節的特徴の利用を目的としたものであり,韻律的特徴に関する記述のなされているものは比較的少数である.また,韻律的特徴に関する記述のなされた音声コーパスの多くは,英語の韻律を記述するToBIや,そこから日本語用に拡張されたJ-ToBIやX-JToBIなどの枠組みの上で構築されている.しかし,これらの方法による韻律の記述は,韻律的特徴の物理的な性質に基づく客観的・定量的なものではなく,ラベラの主観に基づく定性的なものである.また,人手によるラベリングは非常に時間がかかる作業でもあるため,自動ラベリングを行う試みもなされてきたが,必ずしもその結果は満足の得られるものとはなっていない.これに対して,本論文で提案した生成過程モデルパラメータ自動抽出手法を用いれば,韻律的特徴に関する定量的な記述のなされた音声コーパスの構築が可能であり,しかも生成過程モデルのパラメータを利用することにより,限られた量の音声コーパスからでも破綻の少ない韻律生成の可能な統計モデルを構築しうるものと考えられる.

この考えに基づいて,まず,既存の音声コーパスに対して,各発話ごとに音声信号から上記の手法によりF0パターン生成過程モデルのパラメータを抽出すると同時に,既存の音声認識ツールを用いて単音の認識とその境界の決定を行う.一方,その発話と対応する漢字仮名混じり文を既存の統語解析ツールを用いて解析し,形態素・統語構造・係り受けの決定を行うとともに,音声言語情報と文字言語情報との相対時間関係を決定し,韻律コーパスを構築した.また,このコーパスを韻律の規則合成に利用するため,生成過程モデルの指令の生起時点・大きさを指定する決定木を,既存のツールを用いて作成した.次に,この韻律コーパスを用いたテキストからの音声合成システムを構築した.このシステムでは,与えられた漢字仮名混じり文を前記の統語解析ツールを用いて解析し,形態素・統語構造・係り受けの決定を行うとともに,分節的特徴に関しては隠れマルコフモデル(HMM)を利用してメルケプストラムの時系列を生成し,韻律的特徴に関しては上記の決定木を用いて生成過程モデルの指令の生起時点・大きさを指定し,音声合成を行う.実測のF0パターンを構築した韻律コーパスから得られるF0パターンにより置き換えた分析再合成音と,上記のシステムによる合成音声とに対して,それぞれ韻律に着目した5段階の主観評価実験を行った結果,本手法により作成した韻律コーパスの有効性を確認し得た.

審査要旨 要旨を表示する

本論文は「音声の基本周波数パターン生成過程モデルの特徴パラメータ自動抽出手法とそれを用いたコーパスベース韻律生成」と題する。音声の韻律的特徴の一つである基本周波数パターンのモデルとして,その生理学的な生成過程に基づくモデルが提案されているが,本研究では,そのモデルパラメータ抽出の高精度化と,高精度化された抽出法を用いてコーパスベースの韻律生成について検討しており,全7章より成る。

第一章は「序論」であり,本研究の背景,及び目的を述べている。基本周波数パターンは音声の韻律的特徴の一つであるが,ここでは,音声によって伝搬される種々の情報のうち韻律的特徴に対応する情報を解説している。その中でも基本周波数の果たす役割が大きいこと,及び,その記述方法として生理学的知見に基づくモデルが提案されているものの,そのパラメータ抽出が困難であることを示している。

第二章は「音声の韻律分析に関する諸研究」と題し,基本周波数パターンの記述モデルとして本研究で対象にする「生成過程モデル」と,近年米国で提案され,日本語への適用も既に行なわれている「ToBI(Tones and Break Index)」について詳細に解説している。と同時に,生成過程モデルにおいて従来行なわれてきた種々のパラメータ抽出法の記述とともに各方法が持つ問題点についても言及している。

第三章は「生成過程モデルパラメータの自動抽出法」と題し,パラメータ抽出を困難にしている諸現象について列挙すると共に,その解決法の提案及び実装方式について考察している。基本周波数はその抽出時にエラーを伴うため,そのエラー除去と共に,無声区間に対する外挿,更には平滑化などの前処理を経てパラメータ抽出処理が行なわれる。基本周波数パターンの変曲点が生成過程モデルのパラメータの一つであるアクセント指令位置とおよそ一致するとの知見より,平滑化を3次曲線として近似し,その導関数の極値として指令位置を求めているなど,数学的に非常にシンプルかつ,妥当な解決方法を提案している。

第四章は「言語情報を利用したパラメータ自動抽出法」と題し,音声合成用の韻律データベース作成を念頭に置き,入力音声の書き起こしが既知である場合のパラメータ抽出精度の向上を種々の言語情報を併用することで実現している。ここでは,各種言語情報とパラメータ値との関係(規則)を実験的に構築し,精度向上を検討した。

第五章は「生成過程モデルの指令とX-JToBIラベルとの対応」と題し,同一の音声サンプルに対する生成過程モデルパラメータとX-JToBIパラメータとの比較を行なっている。前者は物理パターンのみの記述を,後者は聴覚ならびに知覚上の印象までも含めたラベリングとなっている等の相違点もあるが,前者が使用する少数のパラメータで,後者の種々のラベルを置き換えることができることを実験的に示している。

第六章は「韻律情報のデータベース化および音声合成技術への応用」と題し,本パラメータ抽出法を用いて音声コーパス(音声とその書き起こしのみのデータベース)から,韻律情報,言語情報を自動抽出し,それに基づいて音声合成時に必要な基本周波数制御規則の自動生成を試みている。生成された基本周波数パターンに対して分析再合成及び,HMM合成を用いて合成音声を作成し,聴取実験によりその自然性を評価した。韻律生成に対して全くの自動処理を行なっているにも拘らず,非常に破綻の少ない韻律生成が実装されていることを確認した。

以上を要するに,本論文は,音声情報処理の中において非常に困難な対象とされる基本周波数パターンに対する生成過程モデルパラメータ自動抽出,及びテキストからの基本周波数パターン自動生成に対してその高精度化を実現したものであり,電子情報学に貢献するところが少なくない。

よって、本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク