本論文は、「ピッチ周期化雑音励振源を用いたCELP音声符号化方式の研究」と題し、8章より構成されている。現在,ディジタル自動車電話・携帯電話用の音声符号化方式にはビットレート11.2kbit/sのものが実用されているが、本論文はその半分のビットレート5.6kbit/sで従来のものとほぼ同一の音声品質が得られる符号化方式を研究したものである。 音声ディジタル符号化方式としては、現在、CELP方式と略称される方式が広く用いられている。基本的には、音声のスペクトル包絡に対応する全極型線形フィルタを線形予測法により構成し、これを残差信号で励振することによって音声波形を再生する方式である。ただし、この励振源とする信号波形をそのまま伝送するのでは低ビットレートが実現できないので、あらかじめ用意した2n個の励振源波形を送信側と受信側の符号帳に記憶させておき、送信側では入力音声にもっとも近い再生波形を与える励振源波形を符号帳から選択してその番号(n bit)のみを伝送する。 この方式でビットレートを半分にするもっとも簡単な方法は、符号化の単位としているサブフレームの時間長5msを2倍10msに延長することであるが、従来の方式のままで単純にサブフレーム時間長を10msとすると再生音声品質が劣化する。上記の符号帳は、実際には、適応符号帳、雑音符号帳、利得符号帳と呼ばれる3個のもので構成されているが、本論文で提案する方式は、このうちの雑音符号帳に改良を加えて、再生音声品質の劣化を防止しようとするものである。 第1章は序論であり、本研究の目的、従来の研究と本研究の特徴、および、本論文の構成を述べている。 第2章は「CELP音声符号化方式」と題し、本論文で提案する方式の基礎となるCELP音声符号化方式について解説している。 第3章は「ピッチ周期化雑音励振源を用いたCELP音声符号化方式」と題し、本論文で提案する方式の原理を説明している。CELP方式で用いる3個の符号帳のうち、適応符号帳にはピッチ周期を与える一群の数値が記入されている。これは、もともと、音声のピッチ周期成分を表現するためのものであるが、励振源波形の生成には前サブフレームで使用した励振源波形を利用している。すなわち、前サブフレームの波形先頭からこの数値分の長さを切り出し、これをサブフレーム上に並べたものを生成波形とする。これで表現できない成分は雑音符号帳に記入されている成分を追加して補うが、雑音符号帳に記入されている波形には周期的な成分はない。したがって、前サブフレームが無音であったとすると、現サブフレームには適応符号帳によって与えられるはずのピッチ周期成分が全く出現しないことになる。サブフレーム時間長を10msに延長すると、1サブフレームは複数のピッチ周期が入る長さとなり、その間に周期成分が全く出現しないのでは音声品質が著しく劣化する。そこで、雑音符号帳に記入されている波形を適応符号帳で指定された周期長と同じ長さで切り取り、これを並べて周期性を持つ波形を生成する。雑音符号帳に記入されている一群の波形からもっとも適切なものを選択して周期化することにより、音声波形が急速に変化している領域での歪みを減少させることができる。 第4章は「雑音符号帳の複数チャネルによる構成」と題し、雑音符号帳を複数のチャネルに分割して各チャネルの出力の和で励振源波形を生成する構成法について、符号帳メモリ量、励振源選択に要する演算量、音声品質、符号伝送誤り耐性等を検討したあと、実用性の高い2チャネル構成雑音符号帳の設計を与えている。 第5章は「ピッチ周期化雑音符号帳の閉ループ学習による構成」と題し、提案した雑音符号帳の内容を多数の音声サンプルから学習手法で生成する方式を報告している。学習時の評価尺度としては全サンプルに対する再生音声波形歪みの総和を用いている。 第6章は「移動平均予測方式による線形予測パラメータの符号化」と題し、試作システムで採用した線形予測パラメータの符号化方式について説明している。 第7章は「提案システムの評価」と題し、上記符号化方式を用いたシステムの再生音声品質を評価した結果を報告している。雑音符号帳のピッチ周期化によって、客観評価とした波形歪みSN比が1.6dB、主観評価としたオピニオン等価Q値が1.1dB向上している。 第8章は結語であり、本研究の成果を要約している。 以上を要するに、本論文は、ディジタル自動車電話・携帯電話用のためのビットレート5.6kbit/sの音声符号化方式について研究し、CELP符号化方式においてサブフレーム時間長を10msに延長した場合の音声品質の劣化を防止するために、その雑音符号帳にピッチ周期化を導入する方式を提案したもので、信号処理工学上寄与する所が大きい。よって本論文は博士(工学)の学位請求論文として合格と認める。 |