学位論文要旨



No 116079
著者(漢字) 倪,晋富
著者(英字)
著者(カナ) ニ,ジンフ
標題(和) 標準中国語の韻律的特徴の定量的モデリングと分析と合成
標題(洋) Quantitative Modeling,Analysis and Synthesis of Prosodic Features of Spoken Standard Chinese
報告番号 116079
報告番号 甲16079
学位授与日 2001.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4916号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 上野,照剛
 東京大学 教授 石塚,満
 東京大学 教授 西田,豊明
 東京大学 教授 相田,仁
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

 各言語はある特有なコードによって言語情報を伝える。声調(tone)言語として、中国語では同一の音素列構成をもつ音節でも、声調によって別の意味を表現する。例えば、標準中国語にはma1「母」、ma2「麻」、ma3「馬」、ma4「罵」、ma0(疑問詞)のように四種類の声調型(Tone 1-4)が存在し、音声の基本周波数の動き(FOパターン)に相当し、それぞれH(igh level)、R(ising)、L(ow digging)、F(alling)という記号で表現される。この他にもN(eutral tone)というTone 0があり、特定的な声調型が存在しないことを示している。

 これらの声調型の特徴は、個々の音節を単独に発音した場合には比較的安定であるが、多音節から構成される単語、さらに複数の単語から成る文音声の中では、個々音節の本来的声調特徴が、前後音節の声調型の影響を受けて大きく変化する。いくつかの音節が結合すると、いわゆるtone-sandhiが生ずる。さらに、特定的な声調特徴の変化によってイントネーションが表現出来る。これらの声調特徴の変化を正しく表現し実現することは中国語の音声情報処理で極めて重要であるが、特に中国語の音声合成において、よく知られているtone-sandhi変化規則はこれらの現象の一部分しかカバーしておらず、定量的記述もあまり行われていない。この観点から、本論文では標準中国語における韻律的特徴(主にFOパターン)のモデリング、ラベリングとそれによる分析、合成を目的とする。

 定量的モデルはFOパターンの分析・合成において不可欠である。従来から、生成過程の知見に基づいて基本周波数パターンを表現する有効なモデルが提案されているが、中国語に対しては四声による大きな起伏のため、このモデルに基づいた解析が困難であった。これに対し、本論文では基本周波数パターンの現象を統一的に表現しうる関数を提案し、それに基づいて合成に適したFOパターンのモデルを提案している。具体的には、正規化された周波数スケール、或はRONDO(Ratio Of Natural frequency of driven system to natural frequency of Driven fOrce)スケールを導入することにより、FOパターンは山型のパターンの系列としてA(t)次式で表現される。

但し、記号Min(y, z)はyとzの最小のものを選択しており、F0とtとλはそれぞれ基本周波数、時間、RONDO周波数である。又、Λri(t),Λfi(t)はi番目の山型の上昇と下降成分を示す。

ここでxはrとfを示す。このモデル基づいて、母語話者8名によって発声された2509文を分析し、モデルのパラメータの推定を行った。実験結果から、適切なモデルパラメータを与えることにより、観測FOパターンにモデルを良好にあてはめることが可能だと示された。全話者に対し、主に、ζとλb,λtへは話者や文の内容が関係なく、それぞれ0.237、1.98、1に固定することが可能と分かった。f0b,fotというパラメータは各話者の最小FO値と最大FO値を示す。又、パラメータΔtri,Δλri,tpi,λpi,Δtfi,Δλfi,i=1,...,nの値は言語に関する情報により大きく変動する。しかし、ある発話のFOピークの位置(tpi,i=1,...,n)を指定した場合、残りのパラメータは自動的に推定可能である。これらのパラメータ推定を行うためのアルゴリズムを開発した。図1に一例文「平(ping2)価(jia4)商(shang1)店(dian4)選(xuang3)購(gou4)句(ju4)号(hao4)」の分析結果が示されている。図中、+印は抽出されたFOを示し、実線と破線はそれぞれモデルによる最良近似及び山型のパターンを表す。その分析結果に関するモデルの各パラメータの値を表1に示す。

 山型のパターンにより4つの声調型は次のようなパラメトリック形式を用いて数式化される。

i番目の山型なパターンの数式化<=>{Δtri,Δλri,Δλpi,Δtfi,Δλfi}.

但し、Δλpi=λpi-λpi。更に、λは次の式を示すピーク・レファレンス直線によって求まる。

λ0とkはそれぞれ直線の切片と勾配である。基本的には、一つの山型パターンを使用してR、L、Fの型を表現されて、Hは2つのパターンを組み合わせて表現される。N(Tone 0)に関しては、孤立パターンを定義する必要はない。更に、このパラメトリック形式を用いれば、いかなる声調系列も自由に組み合わせることが出来、tone-sandhi規則によって単語やフレーズのFOパターンが求まり、更にいくつかのイントネーション規則によって文全体のFOパターンが求まる。

 Tone-sandhi規則は、文脈による声調変化を表現するため、モデルによって定式化された。具体的に、19 bi-、198 tri-tone-sandhiの形状をパラメトリック形式で表現した。これらのピーク・レファレンス直線は同一で、同声調Hの系列にほぼマッチングする。これらのtone-sandhiの形状は84 di-、538 tri-、938 tetra-syllablesの単語を分析して求められたもので19 bi-、59 tri-、221 tetra-tone-sandhiのパターンを簡潔に表すものである。各tone-sandhiの形状は3つのレンジ・タイプ{normal (Type A),compressed(Type B),expanded(Type C)}を有し、それによって、異なったFOパターンが実現可能である。これらの規則の妥当性は母語話者3名が発声した1730単語と数字系列と文を用いてAnalysis-by-Synthesisによって評価された。

 イントネーション規則は、文全体のFOパターン生成において、談話焦点と表現意図(質問・応答など)の影響を考慮するものである。分析データとして、朗読調と対話調で発声されたおよそ200文を用いた。実験結果により、談話焦点の影響も表現意図の影響も、tone-sandhiパターンの形状の構造を用いて適切なレンジ・タイプ選択とピーク・レファレンス直線の定義によって記述可能と示された。談話焦点の影響は次の3つの条件によって記述した: pre-,under-,post-focuses。表現意図は文末の声調のみを考慮する。陳述文と比べて、質問文では、ピーク・レファレンス直線は平坦化され、Type Bレンジ・タイプは文末の声調HかFに適用する。対照的に、文末の声調がRかLである場合、FOピークのみが上昇する。

 文全体のFOパターンの合成はテキストと発話焦点の適切な情報を用いて行った。先ず、FOパターンのタイプをtone-sandhi規則によって各単語毎に求める。レンジ・タイプとピーク・レファレンス直線は、各単語焦点と表現意図の条件によって選択される。次に、声調列とレンジ・タイプを用いて選択したモデル・パラメータを、FOピークがピーク・レファレンス直線に一致するように調整する。調整を行う際、ピーク・パラメータのみが再推定され、他のパラメータはそのまま残される。最後に、これらのパラメータでモデルを制御して、特定話者のvoice registerへアライメントすることによってFOパターンを生成する。この手法の実現性を調べるため、分析再合成の実験を行った。図2に一つの例が示されている。図中、+印は抽出されたFOを示し、実線は再合成するFOパターンを表し、直線a、bとcはピーク・レファレンス直線である。

 その他、提案したモデルに基づくは観測的基本周波数パターンに対して声調の自動ラベリングも行った。母語話者6名が発声した600文を用いて評価実験を行い。6791個の声調のうち、84%は正しくラベリングされた。

図1.提案したモデルによる分析結果例。

図2.提案した手法による観測的基本周波数パターンの再合成例。

審査要旨 要旨を表示する

 本論文は「Quantitative Modeling,Analysis and Synthesis of Prosodic Features of Spoken Standard Chinese(標準中国語の韻律的特徴の定量的モデリングと分析と合成)」と題し、音調言語である標準中国語音声の基本周波数パターンの定量的モデルを提案し、それを用いて連続音声の基本周波数パターンの分析と合成を行ったものであって、全6章からなり、英文で記述されている。

 第1章は「Introduction」であって、まず、音声による情報伝達における韻律の役割を整理した上で、声調型、ストレス、イントネーションの観点から中国語音声の韻律的特徴、特に基本周波数パターンについて述べている。次に、従来の中国語音声の韻律的特徴についてのモデル化について述べ、その問題点を示した上で、本研究では、中国語に適した基本周波数パターンのモデルを開発するとしている。さらに、第2章以降の論文の構成を述べている。

 第2章は「Functional Modeling of F0 Contours and its Paramerter Estimation」と題し、まず、喉頭における基本周波数制御のメカニズムに言及し、中国語音声の基本周波数パターンの生成過程モデルを提案している。このモデルは、従来の臨界制動2次線形系にもとづくモデルの特徴であるフレーズとアクセントの重畳記述が中国語音声では解析困難なことに対応したもので、周波数に特殊な変換を施すことにより、各声調の基本周波数パターンを同一の式により定式化可能としている。このモデルでは、各声調についてピーク値を設定することにより基本周波数パターンの記述が可能となり、自動分析、合成のための韻律制御に適している。次に、モデルを用いて連続音声の分析を行い、モデルパラメータの特徴を明らかにするとともに、観測される異本周波数パターンに対するモデルの記述力が優れていることを示している。

 第3章は「Automatic Tone-Labeling of F0 Contours Using the Functional Model」と題して、第3章で提案したモデルを用いて声調のラベル付けを自動的に行う手法を開発している。これは、基本周波数パターンのピーク位置検出に基づくもので、精度の良い自動ラベル付けが可能なことを示している。また、英語や日本語への拡張が可能なことも実験的に指摘している。

 第4章は「Formulation of Tone Concatenation Based on the Functional Model」と題して、連続音声で問題となる前後の文脈による声調の変形(Tone Sandhi)について、モデルによる分析を行って詳細に調べている。特に、3音節、4音節の音声について、可能な声調の組み合わせのFoパターンを分析して各音節の基本周波数のピーク値の変化を明らかにし、その結果を用いることにより、中国語連続音声の基本周波数パターンをモデルに基づいて合成することが可能なことを指摘している。

 第5章は「Quantitative Analysis and Synthesis of Sentence F0 Contours」と題して、提案したモデルに基づく基本周波数パターン生成手法を開発している。これは、声調の組み合わせに従って第4章の結果に基づいて生成した基本周波数パターンテンプレートを、話者が無意識のうちに配置する焦点位置に従って修正することを基本とするものである。また、中国語疑問文音声の特有な現象を明かにし、その結果に基づいて基本周波数パターンの制御を行う必要性を指摘している。最後に、単語、文について、開発した手法による基本周波数パターン生成実験を行い、人間の発声に近いパターンを得ている。これによって、提案したモデルの妥当性が検証できたとしている。

 第6章は「Conclusions and Future Work」であって、本研究で得られた成果を要約し、将来の課題について述べている。

 以上を要するに、本論文は、声調に起因して、他言語よりも基本周波数パターンの起伏が大きい中国語に対し、その分析や合成に適した生成過程モデルを新しく提案したものであり、さらにその有効性を、実際に連続音声の基本周波数パターンの分析と合成を行って具体的に立証している。従来の中国語の音声合成では文イントネーションをも考慮して連続音声の基本周波数パターンを生成することは困難な課題であったが、本研究の成果はこれを解決するものであり、音声合成分野の発展に大きく寄与し、電子情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク