学位論文要旨



No 213785
著者(漢字) 嵯峨山,茂樹
著者(英字)
著者(カナ) サガヤマ,シゲキ
標題(和) 複合正弦波モデルに基づく音声分析アルゴリズムに関する研究
標題(洋)
報告番号 213785
報告番号 乙13785
学位授与日 1998.03.16
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13785号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 舘,すすむ
 東京大学 教授 藤村,貞夫
 東京大学 教授 武田,常廣
 東京大学 教授 安藤,繁
 東京大学 助教授 石川,正俊
内容要旨

 音声スペクトルのモデル化手法は音声情報処理分野の共通基盤として重要である。従来LPC(線形予測符号化)法、PARCOR(偏自己相関係数)法、LSP(線スペクトル対)法などが開発されて、音声分析、音声符号化、音声認識、音声合成、音声加工などで広く用いられ、携帯電話や音声認識システムなどで不可欠の技術になっている。さらに新しい音声分析アルゴリズムを提供することは、これらの応用の範囲をさらに広げるために必要である。

 本論文では、第1章で序論、第2章で音声の短区間分析を概説した後、第3章において、音声信号をn個(例:n=5)の正弦波の和によりモデル化する。分析対象の(短時間の)音声信号が与えられたとき、その標本自己相関関数lとこのモデルの自己相関関数が0〜2n-1次において一致するように方程式を立てる。すなわち第i正弦波の周波数をi、強度をmiとすると、「CSM自己相関方程式」は

 

 である。この連立方程式を解いてモデルの各正弦波周波数と強度を得る。効率的な数値解法アルゴリズムを導き、つねに解が一意に存在することを証明する。分析例を図1に示す。

 第4章では、CSMが直交多項式の理論と密接に関係しており、対象音声のスペクトル関数を重みとする直交多項式を定義すると、数学的(古典代数学)にCSMはそのn次直交多項式の零点のcos-1値で、強度はChristoffel数であり、CSM自己相関方程式はGauss-Jacobiの求積公式に他ならないことを示す。そこからCSM周波数および強度の分布に関するいくつかの理論的性質を導く。

 第5章では、従来の音声分析法の主流であるLPC(PARCORを含む)もまた音声スペクトルに関する別の直交多項式系を作ることを示すことにより、LPCでは遅れ演算子z、CSMでは補間演算子xを基本演算子として、LPCとCSMは同じ数理構造をもつように再定式化ができることを示す。こうして、LPCとCSMの世界は、表裏一体の世界の裏と表のような構造をなすという新しい統一的な理解が得られる。フィルタ設計の観点では、LPCは最小位相、CSMは直線位相の最適逆フィルタ問題である。

 以上を踏まえて、第6章では、情報を失わないで互いに変換可能な等価なスペクトルパラメータセット群の概念を導入する。LPC系パラメータとしては自己相関関数、線形予測係数、偏自己相関(PARCOR)係数、LPC多項式極(線形予測多項式根)、極周波数/帯域幅、線スペクトル対(LSP)周波数、LPCケプストラムが含められる。また、CSM系パラメータとしては、補間相関関数、直交多項式係数対、Jacobi係数、直交多項式の根、CSM周波数/強度がある。LPC系パラメータ同士、CSMパラメータ同士、およびLPCとCSMの間の変換アルゴリズムをほぼ網羅的に導出し、それらが相互に変換可能である(図2参照)ことを示す。

 第7章では、拘束条件つきCSMを導入する。複合正弦波成分の周波数のうち一つが直流(周波数0)あるいは上限周波数(周波数)、あるいは2つが直流と上限周波数に固定されているような3種の拘束条件が存在する。それぞれの解法を導き、つねに一意解が存在することを示し、直交多項式の理論から3種の相互関係を論じる。

 第8章では、まず、板倉の「線形予測係数の線スペクトル表現(LSR)」と「線スペクトル対(LSP)」分析を説明し、これらとCSMとの関係を論じる。CSMとLSPの関係を直交多項式の理論から説明し、LSPはLPCからCSMへの変換に他ならないことを示す。この関係から、LSP周波数の分布に関する性質が導かれる。板倉の線形予測係数の線スペクトル化の理論とCSMは等価であるが、定式化と解法アルゴリズムが異なる。LSPとCSMは深い関係があり、直交多項式の理論で説明することができる。LSPは、単位円上の直交多項式から実軸上の直交多項式への変換であること、すなわちLPCからCSMへの変換に他ならないことが示される。

 第9章では、LSP分析理論の一般化を行なう。複素信号のLPC分析を導入し、これに基づいて一般化LSP分析を定義する。これは、複素信号を対象とし、反射係数(PARCOR係数)を±1ではなく単位円上の任意の異なる2点とするものである。こうしてLSP全極型フィルタの安定性の必要十分条件を導く。

 第10章では、他の代表的な線スペクトルモデルによる信号分析法として、Pisarenko法とGueguenのFactorial Linear Modeling(FLM)を取り上げてCSMと比較する。これら二者は互いに等価であるが、CSMとは等価ではない。計算量ではCSMが遥かに有利である。

 第11章では、CSMの具体的な応用の例として、CSM音声合成方式について述べる。CSMの定義通り複数の正弦波の和により合成音声波形を生成する。これは1200〜2400b/S程度の情報量で音声を合成する極めて計算量の少ない音声合成方式である。別の応用の例として、CSMに基づく音声認識のためのスペクトルマッチング尺度について述べる。CSMパラメータを用いると、LPCスペクトルマッチング尺度をいくつかの離散的な周波数に関する和として表され、変形が容易である。母音識別実験を通してスペクトルの正規化、周波数伸縮マッチング尺度の評価を行う。CSMはこのような面でも有効な手段を与える。

 第12章では、ここまでに述べたスペクトルの分析により特徴ベクトルを求める手法に対し、そうして得られたベクトル系列から動的な特徴を求める分析法について述べる。音声パラメータのベクトル軌跡の速度(接線)ベクトルを考え、動的特徴量を導入する。そのノルムを動的尺度と定義し、それが音素境界などの情報を与えることを示す(図3参照)。ケプストラムの動的特徴量を話者特徴の分析に用い、LSP周波数ベクトルの軌跡の動的特徴を単語音声認識に用いて実験により評価する。

 第13章では、前章の動的特徴量がベクトル時系列に対する線形システムになっていることに注目し、より一般的な行列係数のフィルタを考える。音声認識実験により評価し、新しい枠組がより性能の高い特徴分析となることを示す。

 付録には、実際の音声を様々な次数と拘束条件でCSM分析した例を多数示す。

 従来、既存の音声分析アルゴリズムであるLPC、PARCOR、LSPなどの実験的評価あるいはそれらの応用方式の研究は多いが、本研究はこれらとは異なり、基礎的なレベルで新しい数理的モデルに基づく音声分析アルゴリズムを提案し論じるものであり、複合正弦波モデルを始めとして、音声スペクトルの上の直交多項式理論、LPCとCSMの双対性、等価パラメータセット群、一般化LSP、音声の動的特徴分析など、筆者のオリジナリティが多く含まれる。モデル化とアルゴリズムを主体に論じるため、実験的評価や応用や実際的効用について多くは述べないが、CSM音声合成法はすでに商業的にLSIとして数百万個生産販売され、動的特徴量は世界の大半の音声認識系で用いられている。また、本論文で理論的解明をしたLSP音声分析法(これは筆者の発明ではない)は、携帯電話を始め音声情報圧縮の標準手法としてほとんどの高能率音声符号化系で用いられている。

図1:男声文章音声「爆音が銀世界の高原に広がる」の分析例図2:LPC/CSM等価パラメータセット群とそれらの等価変換関係矢印は、直接変換するアルゴリズムが存在することを示す。左半分は従来から知られていたパラメータ群。右半分といくつかの矢印が本研究で明らかになった。図3:動的尺度の時間パターン例(男声「みんみんぜみ」)音素境界と動的尺度のピークはよく一致する。
審査要旨

 本論文は「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」と題し、14章からなる。音声スペクトルのモデル化手法は音声情報処理分野の共通基盤として重要であり、従来、線形予測符号化法(LPC)、偏自己相関係数法(PARCOR)、線スペクトル対法(LSP)などが開発されて、音声分析、音声符号化、音声認識、音声合成、音声加工などで広く用いられ、携帯電話や音声認識システムなどで不可欠の技術になっており、常に新しい優れた音声分析アルゴリズムを必要としている。本論文では、複合正弦波モデルに基づく音声分析アルゴリズムを提案し、理論的な展開を行うとともに、音声の動的特徴分析などを提案したものであり、CSM音声合成法はすでに商業的にLSIとして数百万個生産販売され、動的特徴量は世界の大半の音声認識系で用いられるなど実用への道を拓いたものである。

 第1章は序論で、複合正弦波モデルに基づく音声分析アルゴリズムを目指す本研究の目的と立場と意義を明らかにしている。

 第2章は、「音声信号の自己相関関数とスペクトル密度」と題し、第3章以降の議論の基本となる事項を整理してまとめている。

 第3章は「複合正弦波モデル(CSM)による音声スペクトルのモデル化」と題し、音声信号をn個の正弦波の和によりモデル化する方法を提案している。分析対象の短時間の音声信号が与えられたとき、その標本自己相関関数vkとこのモデルの自己相関関数が0〜2n-1次において一致するように方程式を立てる。すなわちi正弦波の周波数をi、強度をmiとすると、CSM自己相関方程式はm1 cos k1+m2 cos k2+…+mn cos kn=vk,k=0,1,2,…,2n-1である。この連立方程式を解いてモデルの各正弦波周波数と強度を得る効率的な数値解法アルゴリズムを導き、つねに解が一意に存在することを証明している。

 第4章は「直交多項式理論によるCSMの定式化」と題し、CSMが直交多項式の理論と密接に関係しており、対象音声のスペクトル関数を重みとする直交多項式を定義すると、CSMはそのn次直交多項式の零点の逆余弦値で、強度はChristoffel数であり、CSM自己相関方程式はGauss-Jacobiの求積公式に他ならないことを示している。

 第5章は「複合正弦波モデルと線形予測モデルの双対関係」と題し、従来の音声分析法の主流であるLPCやPARCORもまた音声スペクトルに関する別の直交多項式系を作ることを示すことにより、LPCでは遅れ演算子z、CSMでは補間演算子xを基本演算子として、LPCとCSMは同じ数理構造をもつように再定式化ができることを示している。

 第6章は「LPC/CSM等価パラメータ群」と題し、情報を失わないで互いに変換可能な等価なスペクトルパラメータセット群の概念を導入して、LPC系パラメータ同士、CSMパラメータ同士、およびLPCとCSMの間の変換アルゴリズムを系統的に導出し、それらが相互に変換可能であることを証明している。

 第7章は「拘束条件つきCSMによる音声スペクトルのモデル化」と題し、拘束条件つきCSMを導入している。複合正弦波成分の周波数のうち一つが直流あるいは上限周波数、あるいは2つが直流と上限周波数に固定されているような3種の拘束条件が存在する。それぞれについて解法を導き、つねに一意解が存在することを示し、直交多項式の理論から3種の相互関係を論じている。

 第8章は「CSMと線スペクトル対(LSP)信号解析の関係」と題し、従来から多く利用されている線形予測係数の線スペクトル表現(LSR)及びLSP分析と提案したCSMとの関係を論じて、LSPはLPCからCSMへの変換に他ならないことを示している。

 第9章は「線スペクトル対の一般化」と題し、従来から利用されていたLSP分析理論を拡張し一般化している。すなわち、複素信号のLPC分析を導入し、これに基づいて一般化LSP分析を定義している。これは、複素信号を対象とし、反射係数(PARCOR係数)を±1ではなく単位円上の任意の異なる2点とするものである。こうしてLSP全極型フィルタの安定性の必要十分条件を導くことに成功している。

 第10章は「CSMと他の線スペクトルモデルによる信号分析法との関係」と題し、他の代表的な線スペクトルモデルによる信号分析法として、Pisarenko法とGueguenのFactorial Linear Modeling(FLM)を取り上げてCSMと比較検討を加えている。従来法の二者は互いに等価であるが、CSMとは等価ではなく、計算量ではCSMが遥かに有利であることを結論している。

 第11章は「CSMを用いた音声分析と音声認識」と題し、CSMの具体的な応用の例として、CSM音声合成方式について述べている。CSM法により複数の正弦波の和により合成音声波形を生成する。これは1200〜2400b/S程度の情報量で音声を合成する極めて計算量の少ない音声合成方式を提供し、従って例えば合成用LSIとして数百万個生産販売されるなど実用化されている。

 第12章は「音声スペクトルの動的特徴量」と題し、ここまでに述べたスペクトルの分析により特徴ベクトルを求める手法に対し、そうして得られたベクトル系列から動的な特徴を求める分析法について提案している。音声パラメータのベクトル軌跡の速度(接線)ベクトルを考え、動的特徴量を導入し、そのノルムを動的尺度と定義して、それが音素境界などの情報を与えることを示している。

 第13章は「音声スペクトルの動的特徴量の一般化」と題し、前章の動的特徴量がベクトル時系列に対する線形システムになっていることに注目し、より一般的な行列係数のフィルタを考える。音声認識実験により評価し、新しい枠組がより性能の高い特徴分析となることを示している。

 第14章は結語で、本論文の結論をまとめ、今後を展望している。

 以上これを要するに、音声波形を正弦波の重畳により表現する複合正弦波モデル(CSM)を提案しCSM自己相関方程式を定義して解の存在の必要十分条件を示しつつ具体的な解法を導くことと、従来の線形予測係数の線スペクトル表現法などとの等価性を論じることにより、提案したCSMを音声分析のアルゴリズムとして確立するとともに、本分析アルゴリズムの音声合成と認識への応用について例証して、その有効性について検討を行うことにより実用化への道を拓いたものであって、計測工学及び音声情報工学に貢献するところが大である。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク