学位論文要旨



No 212097
著者(漢字) 山口,幹雄
著者(英字)
著者(カナ) ヤマグチ,ミキオ
標題(和) ターミナルアナログ合成器による実時間音声規則合成に関する研究
標題(洋)
報告番号 212097
報告番号 乙12097
学位授与日 1995.02.09
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第12097号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 渕,一博
 東京大学 教授 羽鳥,光俊
 東京大学 教授 原島,博
 東京大学 教授 石塚,満
 東京大学 助教授 相田,仁
内容要旨

 機械から人間へのインターフェイスの手段として、文字で表現された文を入力し、人間の音声生成過程を司る規則を使って音声を合成する音声規則合成技術がある。日本語の音声規則合成に関して、既に多くの研究成果が発表され、製品も市場で利用しうる状況にある。しかし、合成音声の音質は未だ十分ではなく、音声生成過程の模擬の精密化によって音質の向上を図る必要がある。一方、従来の装置の形態は、パソコンに差し込んで使用するボード型か、パソコン等の標準インターフェイスに接続する装置型であるが、パソコンにはディスプレイなどが既に備わっている点で、利用上の必然性が乏しい。音声規則合成技術の応用範囲を拡大するという観点から、本論文では、(1)音声規則合成で得られる合成音声の音質の向上、と、(2)音声規則合成技術を広く利用し得る形で提供すること、の双方をテーマとして、(1)音声規則合成に用いるターミナルアナログ合成器の精密化及び音声のパワーの定量的検討を行い、さらに、(2)新たな用途の開拓のため、携帯機器や移動体用機器に利用でき、小型・軽量・安価な部品として他の装置に組み込める音声規則合成処理モジュールを実現した。この音声規則合成処理の構成は、(1)カタカナ又はローマ字、アクセント符号、句読点、文節の範囲や統語構造を示す括弧等、の補助記号を使って入力された文を記号毎に分解して、音素記号、統語境界、強調の有無などの情報を得る入力記号解釈処理、(2)蓄積パタンの種類を示す記号、休止記号、フレーズ記号、アクセント記号、強度記号からなる音韻記号列を生成する音韻処理、(3)蓄積パタンを接続することによって分節的特徴を生成し、基本周波数パタン生成過程モデルや音源強度の制御によって超分節的特徴を生成し、両者を合わせた音響パラメータを生成する音響処理、(4)音声信号をターミナルアナログ合成器によって生成する信号処理、の4つの処理部分からなる。

 ターミナルアナログ合成器の構成としては、古くは声帯音源波をインパルス列で模擬し、声道は直列型共振回路や並列型共振回路で模擬する構成が提案されてきた。最近では、より忠実に人間の音声生成過程を制御可能な形で模擬する方が得策だという観点から、声帯音源には多項式モデルを使い、声道の模擬には生成機構の異なる音ごとの複数の直列型回路を使うマルチカスケード構成のターミナルアナログ合成器(MCTA合成器)が提案されている。しかし、適用実績が男声の主要音節に限られていた。そこで、本研究では日本語の男声と女声の規則合成に必要な音節をすべて作成する過程を経て、以下の精密化を行なった(図1)。第1は、声帯音源の改良である。声帯音源には、FL(Fujisaki Ljungqvist)モデル(図2)において、可変パラメータをOQ(声門開放区間の比率)とSK(声門開放区間でのパルスの非対称度)とし、C(声門閉鎖直後の微係数の比率)とD(声門閉鎖直後から体積流が直線的なドリフトに移るまで時間の比率)とA(声帯開放直後の微係数の値)が0に設定されたFL-1モデルが使われていた。しかし、実際の音声を分析してみると、特に女声の場合はCとDの値が0にはならない。一方では、可変パラメータは少ない方が制御規則が簡単になり、自然音声の分析も不安定になりにくい。そこで、Cを可変にする一方、Dを0.2の定数とする拘束条件を付けたFL-4モデルに変更することで、自然音声に適合する結果が得られた。第2は、摩擦音源の改良である。元のMCTA合成器では摩擦音源として、スペクトル的に平坦であると仮定され、放射特性を加えて6dB/Oct.のスペクトル傾斜を有する乱数が使われていた。しかし、実際に音声を分析してみると、極がしばしば低い周波数に位置したり、/ha/の音節において[h]の部分と[a]の部分の境目でホルマント周波数の段差がみられた。一方では、摩擦音源のスペクトルは-6dB/Oct.であるとの説もある。そこで、放射特性を加えてスペクトル的に平坦な一様乱数を摩擦音源として使うことで前述の不具合を解消した。第3は、鼻音用回路の改良である。元のMCTA合成器では、5kHz以下の周波数帯域で鼻音のスペクトル包絡を模擬するのに、3つのホルマントと2組の極零対が使用されていた。しかし、必ずしも自然音声をよく模擬できない場合があり、また、より多くのホルマントが存在することを示唆する研究結果もある。種々の音節の分析合成の結果では、音声規則合成モジュールで使用する6.4kHz以下の周波数帯域ではスペクトル包絡を模擬するのに6つのホルマントと2組の極零対を使って、よりよく模擬できた。

図1、改良後のMCTA合成器の構成(男声、サンプリング周波数=12.8kHz)(が改良した部分)図2、FLモデルのパラメータ(a)glottal flow(声帯音源波)(b)glottal flow derivative

 次に、MCTA合成器に合わせて音響処理における分節的特徴量の生成法の改良を行なった。従来の日本語音声規則合成におけるターミナルアナログ合成器用の分節的特徴量の生成法としては、CV単位(C:子音、V:母音)で蓄積した音節を補間接続する方法や、音素の弁別的素性に基づいて規則により生成する方法が提案されている。従来の補間方法は、直線補間、S字補間、等の予め定められた幾つかのレパートリーに限られている。また、規則合成システムではないが、母音間のホルマント遷移に関しては2次系のステップ応答で模擬できる事も確認されている。しかし、音素の移り変わりは、必ずしも2次系のステップ応答で模擬できるとは限らず、子音と母音の間の遷移のモデル化はいまなお容易ではない。そこで、柔軟な接続が現象論的に選択できる接続方法を実現した。具体的には、先行音節から後続音節への移り変りの度合いの時間的変化を示す遷移比率パタンを導入し、音源強度と声道伝達特性それぞれの音節間の移り変りを簡単な内分計算で表現した。また、特殊拍(促音と撥音)の実現方法にも改良を加えた。従来の促音は1拍の無音として登録した蓄積パタンを使って実現していた。破裂音や破擦音に先行する促音はこれで正しく実現されるが、自然音声において摩擦音に先行する促音は1拍の摩擦音として発音されているので、この処理は正しくない。そこで、時間伸張の基準点を新たに子音に設け、促音の場合はその基準点で1拍分伸ばすことによって、すべての促音を統一して実現した。鼻子音に先行する撥音についても、この基準点で伸ばすことで実現することとしたので、従来の撥音用の蓄積パタンを接続する場合に比べて、接続部分でのパラメータ値の食い違いを未然に防ぐことができる。

 ターミナルアナログ合成器においては、声帯音源波は振幅を調節された後に声道伝達特性を模擬する共振回路を通過することで所定のスペクトル特性が付与されて有声音が合成される。基本周波数と声道伝達特性が絡み合った影響を受けるので、声帯音源の音源強度と合成された音声のパワーは単純な関係にはない。従来のターミナルアナログ合成器では、音声のパワー制御についての検討が殆どなされていなかった。そこでまず、規則合成された有声音のパワーの計算式を導出し、基本周波数の上昇に伴うパワー増加の傾向が生じる要因を、(1)声帯音源自身が有する傾向、(2)放射特性によって生じる傾向(6dB/Oct.)、(3)声道伝達特性によって生じる傾向(図3(a))、の3つに分類した。次に、(2)と(3)の大きさを定量的に述べたのち、自然音声における基本周波数の上昇に伴うパワー増加の傾向(図3(b))と比較することで(1)の傾向が僅かであることを明らかにした。そして、処理系の頑強性を増すために、規則合成された有声音のパワーを声道伝達特性とは独立して制御するための方法を提案し、実時間で音声を合成するために、計算量を削減することを実現した。

図3、基本周波数と男声5母音のパワーの関係(a)合成音声の場合(声道伝達関数へ入力されるglottal flow derivativeのパワーは一定にした)(b)自然音声の場合

 以上の研究成果を利用して、音声規則合成処理系の全体を構築した(図4)。そして、この音声規則合成処理を、実用に供せられる小型・軽量・安価な音声規則合成モジュールとして実現した(図5)。ハードウエアについては、入力記号解釈処理と音韻処理と音響処理をCPUが行い、信号処理をDSPが行なう。ソフトウエアについては、音韻記号列には約1文分のFIFOバッファを、音響パラメータには数モーラ分のFIFOバッファを設けることで、限られたメモリ容量を用いながらも、各段階の処理時間の差を緩衝し実時間処理を可能とした。音響パラメータにおいては共振器・反共振器の特性が一定のままの期間が多く、共振回路も音の合成に寄与していない時間が多いことを示し、この性質を生かしてメモリの節約や演算時間の短縮を図った。

図4、音声規則合成処理の全体のブロック図図5、音声規則合成モジュールの外観

 最後に、男声と女声の合成音声の音質の評価を行なった。拗音を含めた100音節での単音節明瞭度は65%であり、拗音を含めない67音節での単音節明瞭度は74%であった。音素バランスのとれた3音節の100単語の了解度は88%であった。一方、音声規則合成モジュールの大きさ、重さ、消費電力はそれぞれ56×36×8mm、19g、動作時5V170mAであり、携帯型機器への組み込みも十分可能であると考えられる。明瞭度、了解度は、同じMCTA合成器を使いながらもメモリ圧縮や処理時間の制限を設けなかった他の研究に比べると劣るが、小型・軽量のハードウエアを使ってもかかる音質が得られたのは画期的であり、音声規則合成の応用分野に与えるインパクトは大きいと思われる。

審査要旨

 本論文は「ターミナルアナログ合成器による実時間音声規則合成に関する研究」と題し、記号表記された文章を入力とし、人間の音声生成機構を周波数領域でシミュレートする新しい構成のターミナルアナログ型音声合成器を用いて、品質の高い合成音声を出力する技術を開発するとともに、それを小型モジュールとして実現し、実時間音声合成を行う研究に関するものであって、全10章からなる。

 第1章は「序論」であって、本論文の目的と背景を述べている。まず、日本語テキスト音声合成、ターミナルアナログ型合成器、声帯音源波形、音声合成装置に関する従来の研究を概観した上で、本論文の目的が高品質音声合成が可能な合成モジュールの開発にあり、それによって音声合成の利用に資する点にあることを示している。次に、本論文の各章の位置づけを述べている。

 第2章は「音声規則合成モジュールの説明」と題して、まず、開発した音声合成モジュールが、記号表記された入力文章に対し、入力記号解釈処理、音韻処理、音響処理、信号処理を順次行うことによって、合成音声を出力するものであることを述べた後、各処理について説明している。次に、入力が正書法表記された従来のテキスト音声合成装置と比較し、テキスト解析を中央装置で行い、本論文の合成モジュールを各ターミナルに設置して音声合成を行うことにより、信頼性、経済性が向上することを述べ、新しい合成システムの利用について提言している。

 第3章は「ターミナルアナログ合成器の改良」と題して、まず、本論文の合成器の基本となるMCTA合成器(多重カスケード回路構成の合成器)の特徴を説明し、自然音声の高精度分析にもとづいてその問題点を指摘している。次に、本論文で行った声帯音源波形、摩擦音源波形、鼻音合成回路に対する改良の効果を実例をあげて示している。

 第4章は「蓄積パタンの改良」と題して、まず、音節を基本単位とする先行システムについて概説し、本論文での改良点が、主として、先行母音の考慮、分節的特徴と韻律的特徴のタイミング制御の詳細化にあることを示している。また、前章で示した高精度分析法を用いた効率的な蓄積パタンの作成手法を示している。

 第5章は「音声のパワーに関する検討」と題して、まず、合成母音音声について基本周波数の上昇によるパワーの増加傾向について調べ、基本周波数とフォルマント周波数の関係によって極大極小が現れることを示している。次に、自然音声についての結果にもとづいた音源パワー補正の手法を提案し、基本周波数の変化による異常なパワーの増加が抑えられることを音声合成を行って実証している。

 第6章は「合成処理系の構築」と題して、まず、本論文の合成システムの全体を示し、次に、入力記号解釈処理、音韻処理、音響処理、信号処理の各処理の内容を詳細に述べている。特に、音韻処理に関連して韻律規則を示し、入力記号からの音韻記号列導出についての実例を示している。

 第7章は「実用化のための考察」と題して、実用的なシステムとして合成モジュールが備えるべき機能について、音声合成に直接関連したものと、利用に際しての利便性を向上させるものとに分けて考察している。

 第8章は「実時間処理系の実現」と題して、モジュール化のためのハードウエア構成、実時間合成のためのソフトウエア構成について述べている。特に、後者に関して、メモリの節約と処理の高速化に対する考慮点を示している。

 第9章は「合成音声及び処理系の評価」と題して、まず、合成音声の評価を単音節明瞭度試験と単語了解度試験によって行い、従来のものと比較して優れた結果が得られたことを示している。次に、大きさ、消費電力の点から評価を行い、携帯用機器に十分利用可能で、第2章に述べた様な合成モジュールの応用が期待されることを述べている。

 第10章は「結論」であって、本研究で得られた成果を要約している。

 以上これを要するに、本論文は、ターミナルアナログ型の音声合成に関して、高品質化、モジュール化を達成するとともに、その新しい利用形態について提言を行ったものであって、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク