学位論文要旨



No 111446
著者(漢字) 胡,新輝
著者(英字)
著者(カナ) コ,シンキ
標題(和) 標準中国語音声における声調認識の研究
標題(洋) Study on Tone Recognition of Standard Chinese Speech
報告番号 111446
報告番号 甲11446
学位授与日 1995.04.14
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3483号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 水町,守志
 東京大学 教授 渕,一博
 東京大学 教授 高木,幹雄
 東京大学 助教授 田中,良明
 東京大学 助教授 相田,仁
内容要旨

 従来の機械による音声認識では文節的特徴のみが注目され、我々人間が音声認識・理解する際に利用している韻律的特徴に対する考慮が充分になされていなかった。音声認識(特に連続音声)の性能を高めるために、現在、韻律情報の利用も重視になった。中国語は、音節単位の声調言語であり、韻律情報の利用は英語や日本語と比べてもっと重要であると認められた。標準中国語では一つの音節に対して、最大四つの声調がある。声調が意味の違いを区別する役割を持っているため、声調の判定が中国語音声の認識と理解のための重要な要素となる。中国語音声処理システム中で、声調処理は不可欠である。

 Figure1は中国語の四つの声調に対応する基本周波数パターン(以下F0パターン)の例を示す。従来の声調認識は、主として単音節語の声調を対象としたもので、そこで採用された手法は単にF0パターンを折線近似一次関数、あるいは他の特殊関数を用いて近似したものであり、いずれにしても、多くのパラメータに対するしきい値の設定が必要である。多数話者の場合に、話者適応が困難という欠点が存在している。最近、HMMで代表される数理統計手法が音声認識によく用いられている。この方法は、話者による音声の特徴パターンの違い(個人差)を確率的・統計的モデルで捕らえることができる。不特定話者向きの手法であり、有効な話者適応が可能である。すでにこの方法は声調認識に用いられているが、二音節以上の場合に関する研究例が少ない。声調の特徴量として、F0パターンの局所的変化のみに注目して、大局的な特徴を旨く利用していないという問題があった。もう一つの問題点として、Tone Sandhi現象への対処が足りないことがあげられる。また声調認識は単純にF0曲線に注目して、声調に関連あるパワーと時間性も考慮していなかった。

Figure1.Examples of F0 contours of four tones of Chinese.

 以上の背景から、本論文では、単音節語の声調認識から始め、多音節語声調認識を目指して、HMM方法を用いた声調認識方法を検討した。声調特徴量はF0パターンから同時に局所的な特徴量(F0とあるオフセット値の差)と大局的な特徴量(F0曲線の五点間の補間直線の傾き係数)を求めて利用する。これらの特徴量に対して、局所的な特徴量に対するオフセットの最適値を選択する方法を検討した。その値として話者のF0の平均値を用いると良い結果が得られることが分かった。また認識精度と計算時間を総合的に考慮の上、HMM用の量子化コードブックサイズを32としうることが実験的に示された。

 二音節語以上の場合、相隣る2音節がお互いの影響を受けるため、Tone Sandhiという現象(声調の形が変わること)が起こる。大量の音声データの分析から、以下の知見が得られた:

 (1)第1声と第2声については、音節の位置によるF0パターンには大きな違いが見られない。

 (2)第3声の音節が連続したT3T3の場合、第1音節の第3声のF0パターンが第2声に変化し、全体としてT2T3のF0パターンを有する。

 (3)第3声で後続音節が第3声以外の場合、この第3声の後半でのF0の上昇の程度が抑えられ、ほぼ水平に近くなる。これは、いわゆる’半第3声’という現象である。これをT3hで表す。

 (4)第4声の音節が連続したとき、第1音節のF0パターンの下降が明確でなくなる、これを、T4hで表す。

 (5)第2音節が弱く発声され、本来のF0パターンが見られなくなる軽声現象が起きている。これにともなって、継続時間長も短くなって、パワーも弱くなる。

 以上に基づいて、二音節語と三音節語の場合に、モデルの選択は単純に単音節語の場合のように辞書上で定義されたの4つの声調のみを用いて行えないと思われる。本論文では、二音節語以上の場合に、基本的な4つの声調に対応するモデルのほかにT3hとT4hに対応するモデルも追加した。また、単音節と違っている点は、単音節の場合は、始点と終点が分かっていて、F0パターンは一つの連続的な曲線となる。一方、多音節の場合には、F0パターンは無声区間によって幾つかの部分に分断されていることが多い(最大、音節数まで)。これは中国語の音節の構造により決められる。中国語音節の構造は"声母+韻母"である。零声母(声母がない)時もある。一つの音節うち、韻母はすべて有声音であり、声母は有声音と無声音の場合がある。もし声母が無声音の時、多音節語のF0パターンには基本周波数が存在しない部分ある。そこで同じ声調の組合せの時、二種類のF0曲線がある。本論文では、これらの無声区間に対処について以下の幾つかの方法を検討した。

 (1)単に一つの特別なベクトル(0,0)を与えて、これらの無声点を代表させる。

 (2)無声区間の両側の有声区間を参照して、これらの無声区間のF0を補間する。

 次に、HMMの訓練と認識の方法としては、単音節語では、始点、終点の判断の必要がなく、HMMのスコアリングをForward algorithmのみで行なうことができる。単音節語声調認識用のHMMのTopologyはFigure2(a)に示すように、4状態で4ループである。二音節と三音節の場合の音節HMMは、Figure2(b)の上半部に示す様に4状態で、3ルーブである。連続音声を高い精度でSegmentationすることが難しいので、本論文では、HMMに対する訓練として予めのSegmentationが要らない手法を採用した。HMMの訓練は学習データに含まれた各音節の声調符号系列だけに基づいて、Figure2.(b)の下半部のように"連結+分解"の二段階で行う。

Figure2.Topologies of HMMs in monosyllabic tone recognition(a),topologies of syllabic HMMs adopted for dissyllabic and trisyllabic tone recognition(the upper panels of(b))and concatenation and decomposition in the training of HMMs in dissyllabic tone recognition(b).

 無声区間に対処する方法によって声調符号系列を選ぶ方法が異なっている。

 ・ベクトル(0、0)を与えるとき、

 (1)特別ベクトル(0、0)を与えて、含まれた音節の声調だけを声調符号を作る。

 (2)ベクトル(0、0)に一つのモデルを追加する。

 ・無声区間を補間するとき、

 (1)単に含まれた音節の声調だけに声調符号を作る。

 (2)前後の音節間連結区間のF0のレベルによって、二つ音節間にもう一つのモデルを挿入する。この新たに入れられたモデルはT2或いはT4である。T2を選ぶケースは以下の声調組み合わせの時:T3T1,T3T4,T4T1,T4T4.またT4を選ぶケースは以下の声調組み合わせの時:T1T2,T1T3,T2T2,T2T3.これ以外の組み合わせでは挿入は行わない。

 HMMのスコアリングはViterbi Algorithmによって求める。HMMの結果が各フレーム毎に与えられる。正確な音節の境界が分かっていないので、最終的な各音節の声調認識結果は後処理を行うことによって与えられる。この後処理ではHMMの結果の系列に対して、分割、合併、除去などの処理を行なう。最大の三つの候補ラベルを残す。最後に、各ラベルの長さと隣接ラベルの種類によって最終結果を決定する。

 次に、パワーの声調に対する寄与も検討した。従来の声調認識研究は主に、F0だけ用いていた。しかし、二音節以上の場合には不十分である。特に、軽声に対する認識結果が悪い。軽声は、二音節以上の場合に相隣る音節のお互いの影響を受けて、元の声調がなくなるという現象であり、現れるのは必ず文中か文末である。特に文末の場合が多い。軽声は基本的な四声の性質と違っていて、安定的なF0パターンを持っていない。又、パワーが小さく、Durationも短い。各声調組合せの音節音声の分析結果から、軽声のF0パターンの以下の性質が分かった。

 (1)第三声の音節に後続する場合、軽声のF0パターンは上昇パターンとなる。

 (2)第三声以外の音節に後続する場合、軽声のF0パターンは下降パターンとなる。これに基づいて、軽声のHMMをこの二つの状況別に作成する。

 軽声のパワーが小さいという特徴を利用するために、我々は従来のF0に対応するHMMに、パワーに対応するコードブックも追加した。一つの状態にF0とパワーの二つ観察系列が同時に存在している。

 また軽声のDurationが短いという特徴を利用するために、第三声(よく軽声と混同される)として認識された結果をもう一度、Durationの統計値によって、判断する。各声調の中で、第三声が一番長いため、軽声と第三声を区別することが可能である。75%の程度の認識率ができる。

 以上の方法を用いて行った、単音節語、二音節語、三音節語の声調認識結果を図3に示す。結論として、HMM手法を用いた声調認識は、従来の近似関数などの方法と比較して、結果のしきい値の設定が不要となり、話者適応が行える。また、二音節語以上の場合に、tone sandhiによって生じた声調変動の対処について、最適な声調HMMの選択を行なった。軽声に対処するためには、単に基本周波数だけでは不十分である。パワーの情報を入れることにより、良好な効果が得られた。

Figure3.Recognition result of monosyllabic,dissyllabic and trisyllabic tones.Case 1 denotes to the experiment that one special code was assigined to unvoiced regions. Case 2 denotes to the experiment that approximating was conducted for the unvoiced regions. For the light tone,the left bar indicates the result when only F0 was used,while the right one indicates the result when the power was added.
審査要旨

 本論文は「Study on Tone Recognition of Standard Chinese Speech(標準中国語音声における声調認識の研究)」と題し、隠れマルコフモデル(HMM)を用いた標準中国語単語音声の声調認識手法に関する研究を英文でまとめたものであって、全8章からなる。

 第1章は「Introduction」であって、本論文の目的と背景を述べている。まず、音調言語である中国語の連続音声を高精度に認識するためには、韻律的特徴を利用した声調認識が不可欠であることを述べ、次に、本論文の目的が、連続音声を対象とするための前提となる複数音節単語音声の高精度声調認識手法の開発にあるとしている。さらに、論文の構成を示している。

 第2章は「Current Researches on Tone Recognition of Chinese」と題し、まず、標準中国語の音節構造と声調の特徴について説明した後、語の意味の伝達における声調の役割の重要性を指摘している。次に、声調認識研究の現状について紹介し、基本周波数パターンを直線あるいは曲線によって近似する簡便な方法によっても単音節単語を対象とした場合には、比較的高い認識率が得られたとしている。しかしながら、この様な方法によって対象を連続音声に拡大することは困難であり、また、話者の変更等の変動要因に対する頑健性に欠けるとしている。これに対して発声の変動をモデル化し得るHMMを用いた方法の有効性を指摘し、単音節を対象とした先行研究例を紹介している。複数音節を対象としていない点、認識パラメータに基本周波数パターンの変化を直接表現するものが含まれていない点に問題があるとして、本論文はそれらを解決するものであることを明示している。

 第3章は「HMM and Basic Algorithms Adopted in the Research」と題して、本論文で提案した手法で用いられている離散HMMとその学習、認識手法、ベクトル量子化の手法を概説している。

 第4章は「Tone Recognition of Monosyllables」と題して、中国語単音節音声について、まず四声の基本周波数パターンの特徴を紹介し、次に、HMMを用いた声調認識手法を提案している。特徴パラメータの検討を行い、基本周波数の値とともにパターンの傾き値を用いることにより認識率が向上することを示している。話者の正規化についても検討を行い、数単語の発声について平均基本周波数を求め、基本周波数値の基準とすることによって有効な正規化が可能なことを示している。さらに、音声の始端と終端でパターンの変動が大きいことを指摘し、この部分を認識から除外することによって、認識率が向上するとしている。第1声から第4声の各々に対して1つのモデルを用意して認識を行った結果、多数話者の発声に対して98.5%の認識率を得たとしている。基本周波数の抽出法、最適コードブックサイズ等についても言及している。

 第5章は「Tone Recognition of Dissyllables」と題して、まず標準中国語2音節音声では声調の組み合せによって基本周波数パターン(声調パターン)が大きく変形するTone Sandhi現象が見られることを示し、それに対応してモデルを追加することの必要性等を指摘している。次に、2音節音声をセグメントせずに用いてHMMの学習を行うために、連結学習を取り入れ、有用性が示されたとしている。また、第2音節が無声子音を含み連続したパターンが得られない場合の取扱いについて、無声区間に特殊コードを割り当てる方法と直線補間する方法とを比較し、後者の方が若干良い結果が得られ、連続音声への拡張性に優れるとしている。但し、補間直線の傾きが大きい場合には遷移部に対してモデルを割り当てる必要がある。認識実験の結果、96%の高い認識率が示され、提案した手法の有効性が示されたとしている。

 第6章は「Tone Recognition of Trisyllables」と題して、前章で開発した手法を3音節音声に拡張した結果について述べ、第2声の変形モデルを追加することにより、93%の認識率が得られたとしている。第2音節の認識が最も困難であるが、これは第2音節の声調パターンの変形が大きいためである。

 第7章は「Recognition of Light Tone」と題して、まず2音節音声以上では、従来、文末等で起るとされてきた声調パターンが固有の形状を失う軽声現象が見られることを指摘している。次に、軽声の声調パターンは先行音節の声調パターンが第3声か否かによって大きく異なることを示し、両者を個別に取り扱うことの必要性を指摘している。次に、軽声の声調パターンは第3声のそれと似ることが多く、両者の識別には基本周波数パターン以外の情報が必要なことを指摘した上で、基本周波数に関するコードブックの他にパワーに関するコードブックを用意するダブルコードブックHMMによる認識手法を提案している。3音節音声を用いた認識実験の結果、各音節に対して数%程度の認識率の向上が得られるとともに、軽声の認識率が大幅に向上し、手法の有効性が示されたとしている。さらに、持続時間を利用して軽声の第3声への誤認識を低減することにより、軽声の認識率75%、全体の認識率97%が最終的に得られたことを示している。

 第8章は「Conclusion」であって、本研究で得られた成果を要約している。

 以上これを要するに、本論文は、中国語連続音声認識のための重要な要素技術である声調認識についてHMMを用いた新しい手法を提案し、複数音節からなる単語音声に対してその有効性を実証したものであって、音声コミュニケーションシステムの高度化に大きく寄与するものと考えられ、電子工学に貢献するところが少なくない。

 よって、著者は東京大学大学院工学系研究科電子工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク