本論文は「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」と題し、14章からなる。音声スペクトルのモデル化手法は音声情報処理分野の共通基盤として重要であり、従来、線形予測符号化法(LPC)、偏自己相関係数法(PARCOR)、線スペクトル対法(LSP)などが開発されて、音声分析、音声符号化、音声認識、音声合成、音声加工などで広く用いられ、携帯電話や音声認識システムなどで不可欠の技術になっており、常に新しい優れた音声分析アルゴリズムを必要としている。本論文では、複合正弦波モデルに基づく音声分析アルゴリズムを提案し、理論的な展開を行うとともに、音声の動的特徴分析などを提案したものであり、CSM音声合成法はすでに商業的にLSIとして数百万個生産販売され、動的特徴量は世界の大半の音声認識系で用いられるなど実用への道を拓いたものである。 第1章は序論で、複合正弦波モデルに基づく音声分析アルゴリズムを目指す本研究の目的と立場と意義を明らかにしている。 第2章は、「音声信号の自己相関関数とスペクトル密度」と題し、第3章以降の議論の基本となる事項を整理してまとめている。 第3章は「複合正弦波モデル(CSM)による音声スペクトルのモデル化」と題し、音声信号をn個の正弦波の和によりモデル化する方法を提案している。分析対象の短時間の音声信号が与えられたとき、その標本自己相関関数vkとこのモデルの自己相関関数が0〜2n-1次において一致するように方程式を立てる。すなわちi正弦波の周波数をi、強度をmiとすると、CSM自己相関方程式はm1 cos k1+m2 cos k2+…+mn cos kn=vk,k=0,1,2,…,2n-1である。この連立方程式を解いてモデルの各正弦波周波数と強度を得る効率的な数値解法アルゴリズムを導き、つねに解が一意に存在することを証明している。 第4章は「直交多項式理論によるCSMの定式化」と題し、CSMが直交多項式の理論と密接に関係しており、対象音声のスペクトル関数を重みとする直交多項式を定義すると、CSMはそのn次直交多項式の零点の逆余弦値で、強度はChristoffel数であり、CSM自己相関方程式はGauss-Jacobiの求積公式に他ならないことを示している。 第5章は「複合正弦波モデルと線形予測モデルの双対関係」と題し、従来の音声分析法の主流であるLPCやPARCORもまた音声スペクトルに関する別の直交多項式系を作ることを示すことにより、LPCでは遅れ演算子z、CSMでは補間演算子xを基本演算子として、LPCとCSMは同じ数理構造をもつように再定式化ができることを示している。 第6章は「LPC/CSM等価パラメータ群」と題し、情報を失わないで互いに変換可能な等価なスペクトルパラメータセット群の概念を導入して、LPC系パラメータ同士、CSMパラメータ同士、およびLPCとCSMの間の変換アルゴリズムを系統的に導出し、それらが相互に変換可能であることを証明している。 第7章は「拘束条件つきCSMによる音声スペクトルのモデル化」と題し、拘束条件つきCSMを導入している。複合正弦波成分の周波数のうち一つが直流あるいは上限周波数、あるいは2つが直流と上限周波数に固定されているような3種の拘束条件が存在する。それぞれについて解法を導き、つねに一意解が存在することを示し、直交多項式の理論から3種の相互関係を論じている。 第8章は「CSMと線スペクトル対(LSP)信号解析の関係」と題し、従来から多く利用されている線形予測係数の線スペクトル表現(LSR)及びLSP分析と提案したCSMとの関係を論じて、LSPはLPCからCSMへの変換に他ならないことを示している。 第9章は「線スペクトル対の一般化」と題し、従来から利用されていたLSP分析理論を拡張し一般化している。すなわち、複素信号のLPC分析を導入し、これに基づいて一般化LSP分析を定義している。これは、複素信号を対象とし、反射係数(PARCOR係数)を±1ではなく単位円上の任意の異なる2点とするものである。こうしてLSP全極型フィルタの安定性の必要十分条件を導くことに成功している。 第10章は「CSMと他の線スペクトルモデルによる信号分析法との関係」と題し、他の代表的な線スペクトルモデルによる信号分析法として、Pisarenko法とGueguenのFactorial Linear Modeling(FLM)を取り上げてCSMと比較検討を加えている。従来法の二者は互いに等価であるが、CSMとは等価ではなく、計算量ではCSMが遥かに有利であることを結論している。 第11章は「CSMを用いた音声分析と音声認識」と題し、CSMの具体的な応用の例として、CSM音声合成方式について述べている。CSM法により複数の正弦波の和により合成音声波形を生成する。これは1200〜2400b/S程度の情報量で音声を合成する極めて計算量の少ない音声合成方式を提供し、従って例えば合成用LSIとして数百万個生産販売されるなど実用化されている。 第12章は「音声スペクトルの動的特徴量」と題し、ここまでに述べたスペクトルの分析により特徴ベクトルを求める手法に対し、そうして得られたベクトル系列から動的な特徴を求める分析法について提案している。音声パラメータのベクトル軌跡の速度(接線)ベクトルを考え、動的特徴量を導入し、そのノルムを動的尺度と定義して、それが音素境界などの情報を与えることを示している。 第13章は「音声スペクトルの動的特徴量の一般化」と題し、前章の動的特徴量がベクトル時系列に対する線形システムになっていることに注目し、より一般的な行列係数のフィルタを考える。音声認識実験により評価し、新しい枠組がより性能の高い特徴分析となることを示している。 第14章は結語で、本論文の結論をまとめ、今後を展望している。 以上これを要するに、音声波形を正弦波の重畳により表現する複合正弦波モデル(CSM)を提案しCSM自己相関方程式を定義して解の存在の必要十分条件を示しつつ具体的な解法を導くことと、従来の線形予測係数の線スペクトル表現法などとの等価性を論じることにより、提案したCSMを音声分析のアルゴリズムとして確立するとともに、本分析アルゴリズムの音声合成と認識への応用について例証して、その有効性について検討を行うことにより実用化への道を拓いたものであって、計測工学及び音声情報工学に貢献するところが大である。 よって、本論文は博士(工学)の学位請求論文として合格と認められる。 |