従来の機械による音声認識では文節的特徴のみが注目され、我々人間が音声認識・理解する際に利用している韻律的特徴に対する考慮が充分になされていなかった。音声認識(特に連続音声)の性能を高めるために、現在、韻律情報の利用も重視になった。中国語は、音節単位の声調言語であり、韻律情報の利用は英語や日本語と比べてもっと重要であると認められた。標準中国語では一つの音節に対して、最大四つの声調がある。声調が意味の違いを区別する役割を持っているため、声調の判定が中国語音声の認識と理解のための重要な要素となる。中国語音声処理システム中で、声調処理は不可欠である。 Figure1は中国語の四つの声調に対応する基本周波数パターン(以下F0パターン)の例を示す。従来の声調認識は、主として単音節語の声調を対象としたもので、そこで採用された手法は単にF0パターンを折線近似一次関数、あるいは他の特殊関数を用いて近似したものであり、いずれにしても、多くのパラメータに対するしきい値の設定が必要である。多数話者の場合に、話者適応が困難という欠点が存在している。最近、HMMで代表される数理統計手法が音声認識によく用いられている。この方法は、話者による音声の特徴パターンの違い(個人差)を確率的・統計的モデルで捕らえることができる。不特定話者向きの手法であり、有効な話者適応が可能である。すでにこの方法は声調認識に用いられているが、二音節以上の場合に関する研究例が少ない。声調の特徴量として、F0パターンの局所的変化のみに注目して、大局的な特徴を旨く利用していないという問題があった。もう一つの問題点として、Tone Sandhi現象への対処が足りないことがあげられる。また声調認識は単純にF0曲線に注目して、声調に関連あるパワーと時間性も考慮していなかった。 Figure1.Examples of F0 contours of four tones of Chinese. 以上の背景から、本論文では、単音節語の声調認識から始め、多音節語声調認識を目指して、HMM方法を用いた声調認識方法を検討した。声調特徴量はF0パターンから同時に局所的な特徴量(F0とあるオフセット値の差)と大局的な特徴量(F0曲線の五点間の補間直線の傾き係数)を求めて利用する。これらの特徴量に対して、局所的な特徴量に対するオフセットの最適値を選択する方法を検討した。その値として話者のF0の平均値を用いると良い結果が得られることが分かった。また認識精度と計算時間を総合的に考慮の上、HMM用の量子化コードブックサイズを32としうることが実験的に示された。 二音節語以上の場合、相隣る2音節がお互いの影響を受けるため、Tone Sandhiという現象(声調の形が変わること)が起こる。大量の音声データの分析から、以下の知見が得られた: (1)第1声と第2声については、音節の位置によるF0パターンには大きな違いが見られない。 (2)第3声の音節が連続したT3T3の場合、第1音節の第3声のF0パターンが第2声に変化し、全体としてT2T3のF0パターンを有する。 (3)第3声で後続音節が第3声以外の場合、この第3声の後半でのF0の上昇の程度が抑えられ、ほぼ水平に近くなる。これは、いわゆる’半第3声’という現象である。これをT3hで表す。 (4)第4声の音節が連続したとき、第1音節のF0パターンの下降が明確でなくなる、これを、T4hで表す。 (5)第2音節が弱く発声され、本来のF0パターンが見られなくなる軽声現象が起きている。これにともなって、継続時間長も短くなって、パワーも弱くなる。 以上に基づいて、二音節語と三音節語の場合に、モデルの選択は単純に単音節語の場合のように辞書上で定義されたの4つの声調のみを用いて行えないと思われる。本論文では、二音節語以上の場合に、基本的な4つの声調に対応するモデルのほかにT3hとT4hに対応するモデルも追加した。また、単音節と違っている点は、単音節の場合は、始点と終点が分かっていて、F0パターンは一つの連続的な曲線となる。一方、多音節の場合には、F0パターンは無声区間によって幾つかの部分に分断されていることが多い(最大、音節数まで)。これは中国語の音節の構造により決められる。中国語音節の構造は"声母+韻母"である。零声母(声母がない)時もある。一つの音節うち、韻母はすべて有声音であり、声母は有声音と無声音の場合がある。もし声母が無声音の時、多音節語のF0パターンには基本周波数が存在しない部分ある。そこで同じ声調の組合せの時、二種類のF0曲線がある。本論文では、これらの無声区間に対処について以下の幾つかの方法を検討した。 (1)単に一つの特別なベクトル(0,0)を与えて、これらの無声点を代表させる。 (2)無声区間の両側の有声区間を参照して、これらの無声区間のF0を補間する。 次に、HMMの訓練と認識の方法としては、単音節語では、始点、終点の判断の必要がなく、HMMのスコアリングをForward algorithmのみで行なうことができる。単音節語声調認識用のHMMのTopologyはFigure2(a)に示すように、4状態で4ループである。二音節と三音節の場合の音節HMMは、Figure2(b)の上半部に示す様に4状態で、3ルーブである。連続音声を高い精度でSegmentationすることが難しいので、本論文では、HMMに対する訓練として予めのSegmentationが要らない手法を採用した。HMMの訓練は学習データに含まれた各音節の声調符号系列だけに基づいて、Figure2.(b)の下半部のように"連結+分解"の二段階で行う。 Figure2.Topologies of HMMs in monosyllabic tone recognition(a),topologies of syllabic HMMs adopted for dissyllabic and trisyllabic tone recognition(the upper panels of(b))and concatenation and decomposition in the training of HMMs in dissyllabic tone recognition(b). 無声区間に対処する方法によって声調符号系列を選ぶ方法が異なっている。 ・ベクトル(0、0)を与えるとき、 (1)特別ベクトル(0、0)を与えて、含まれた音節の声調だけを声調符号を作る。 (2)ベクトル(0、0)に一つのモデルを追加する。 ・無声区間を補間するとき、 (1)単に含まれた音節の声調だけに声調符号を作る。 (2)前後の音節間連結区間のF0のレベルによって、二つ音節間にもう一つのモデルを挿入する。この新たに入れられたモデルはT2或いはT4である。T2を選ぶケースは以下の声調組み合わせの時:T3T1,T3T4,T4T1,T4T4.またT4を選ぶケースは以下の声調組み合わせの時:T1T2,T1T3,T2T2,T2T3.これ以外の組み合わせでは挿入は行わない。 HMMのスコアリングはViterbi Algorithmによって求める。HMMの結果が各フレーム毎に与えられる。正確な音節の境界が分かっていないので、最終的な各音節の声調認識結果は後処理を行うことによって与えられる。この後処理ではHMMの結果の系列に対して、分割、合併、除去などの処理を行なう。最大の三つの候補ラベルを残す。最後に、各ラベルの長さと隣接ラベルの種類によって最終結果を決定する。 次に、パワーの声調に対する寄与も検討した。従来の声調認識研究は主に、F0だけ用いていた。しかし、二音節以上の場合には不十分である。特に、軽声に対する認識結果が悪い。軽声は、二音節以上の場合に相隣る音節のお互いの影響を受けて、元の声調がなくなるという現象であり、現れるのは必ず文中か文末である。特に文末の場合が多い。軽声は基本的な四声の性質と違っていて、安定的なF0パターンを持っていない。又、パワーが小さく、Durationも短い。各声調組合せの音節音声の分析結果から、軽声のF0パターンの以下の性質が分かった。 (1)第三声の音節に後続する場合、軽声のF0パターンは上昇パターンとなる。 (2)第三声以外の音節に後続する場合、軽声のF0パターンは下降パターンとなる。これに基づいて、軽声のHMMをこの二つの状況別に作成する。 軽声のパワーが小さいという特徴を利用するために、我々は従来のF0に対応するHMMに、パワーに対応するコードブックも追加した。一つの状態にF0とパワーの二つ観察系列が同時に存在している。 また軽声のDurationが短いという特徴を利用するために、第三声(よく軽声と混同される)として認識された結果をもう一度、Durationの統計値によって、判断する。各声調の中で、第三声が一番長いため、軽声と第三声を区別することが可能である。75%の程度の認識率ができる。 以上の方法を用いて行った、単音節語、二音節語、三音節語の声調認識結果を図3に示す。結論として、HMM手法を用いた声調認識は、従来の近似関数などの方法と比較して、結果のしきい値の設定が不要となり、話者適応が行える。また、二音節語以上の場合に、tone sandhiによって生じた声調変動の対処について、最適な声調HMMの選択を行なった。軽声に対処するためには、単に基本周波数だけでは不十分である。パワーの情報を入れることにより、良好な効果が得られた。 Figure3.Recognition result of monosyllabic,dissyllabic and trisyllabic tones.Case 1 denotes to the experiment that one special code was assigined to unvoiced regions. Case 2 denotes to the experiment that approximating was conducted for the unvoiced regions. For the light tone,the left bar indicates the result when only F0 was used,while the right one indicates the result when the power was added. |