学位論文要旨



No 212100
著者(漢字) 三樹,聡
著者(英字)
著者(カナ) ミキ,サトシ
標題(和) ピッチ周期化雑音励振源を用いたCELP音声符号化方式の研究
標題(洋)
報告番号 212100
報告番号 乙12100
学位授与日 1995.02.09
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第12100号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 森下,巖
 東京大学 教授 有本,卓
 東京大学 教授 舘,すすむ
 東京大学 助教授 出口,光一郎
 東京大学 助教授 安藤,繁
内容要旨

 本論文は、4kbit/s以下のビットレートをもつ電話帯域音声圧縮符号化方式に関する研究をまとめたものである。本研究ではこのビットレートで実用に耐えうるディジタル自動車・携帯電話用音声符号化方式の実現を最終的な目標とし、CELP(Code Excited Linear Prediction)系音声符号化方式の高品質化・低演算量化・低メモリ量化・符号誤りに対する高耐性化の検討を行った。

 CELP方式は4-8kbit/s程度のビットレートで最も優れた音声符号化方式のひとつであり、ディジタル自動車電話方式のフルレート日本標準として採用されているVSELP(Vector-Sum Excited Linear Prediction)方式(ビットレートは音声部6.7kbit/s)も本方式に属するものである。しかし、4kbit/s以下のビットレートにCELP方式をそのまま適用するのは品質劣化が著しい。本論文の特徴はCELP方式の主要部である「雑音符号帳」の新しい構成法を提案し、低いビットレートでも高品質な音声を再生できるようにした点にある。提案手法は大きく分けて以下の3つである。

1.ピッチ周期化雑音符号帳の提案

 CELPを4kbit/s以下の低いビットレートに用いる場合、サブフレーム長を従来の5ms程度から8-10ms程度に延長せざるを得ない。この場合サブフレーム内に複数のピッチ周期が入る可能性が非常に高くなる。従来方式のまま単純にサブフレームの時間長を延長すると雑音符号帳の出力で表現すべき成分中にピッチ周期成分が残り、これによって再生音声品質が大きく劣化する。この品質劣化は雑音符号帳に格納されている時系列信号をピッチ周期に基づいてサブフレームごとに再構成するピッチ同期雑音符号帳手法を採用することにより、大幅に低減されることを示す。実際の符号化器に提案手法を組み込んで測定した結果、SNR、SNRseg、オビニオン等価Q値がそれぞれ1.6dB、1.0dB、1.1dB向上し、本提案の有効性を示した。

2.メモリ量・演算量・符号誤り耐性がバランスした雑音符号帳構造の提案

 メモリ量・演算量・伝送路符号誤り耐性・符号帳の学習による設計の観点から、CELP方式を現実に利用するためには構造化雑音符号帳の採用が不可欠である。そこでVSELP構造雑音符号帳と2チャネル構造雑音符号帳の2つを包含する概念のKチャネル雑音符号帳を提案し、その特性を測定した。それより、2チャネル構造雑音符号帳は他の複数チャネル構造に比べ基本品質はよいが、符号帳サイズ・演算量・符号誤り耐性に問題があることがわかった。他の複数チャネル構造は表現空間の構造的制約から基本品質を上げることは難しい。ゆえにここでは2チャネル構造雑音符号帳の欠点を克服するアプローチをとる。その手法として、

 ・巡回オーバラップ型雑音符号帳によりメモリ量を削減する手法

 ・簡便なひずみ尺度により予備選択を行ない、演算量のかかる本選択の対象ベクトルを減らす手法

 ・情報源符号と伝送路符号の対応付けにより符号誤り耐性を向上させる手法の導入を検討した。その結果、2チャネル構造雑音符号帳の高い基本品質を維持したまま符号帳サイズ・演算量および符号誤り耐性をVSELP構造雑音符号帳並みにすることが可能であることを示した。

3.複雑な構造をもつ雑音符号帳の閉ループ学習法の提案

 低ビットレートCELP符号化方式では再生音声品質向上のため、符号帳を学習により構成することが不可欠である。かつ入力音声と再生音声間のひずみの総和を最小にすることを学習の基準にする閉ループ学習法を用いなければ品質向上は望めない。そこで、2チャネル構造を利用した閉ループ学習による実用的な逐次学習法を提案した。次に符号誤りの影響を小さくするために、伝送路符号と符号ベクトルの対応変換テーブルの構成法を提案した。さらにその変換をも組み込んだ伝送路誤りを考慮したひずみを定義し、それに基づく符号帳学習法を示した。続いてこの学習法を用い、学習によるひずみ削減過程や雑音励振ベクトルの変化例を示した。学習によりひずみは約1dB減少し、それに伴って主観品質も向上することを確かめた。また符号誤りに対するビットごとの感度を調べ、伝送路符号との対応変換や誤りを考慮した学習により符号誤りの耐性が改善されることを示した。

 これらの提案手法により設計された3.6kbit/sのビットレートをもつ音声符号化システムは、6.7kbit/sのビットレートをもつディジタル自動車電話のフルレート音声符号化方式日本標準であるVSELP方式より、伝送路符号誤りなしの条件でより高い主観品質を示した。本論文で述べた研究を核として開発された音声符号化方式はPSI-CELP(Pitch Synchronous Innovation-CELP)と名づけられ、ディジタル自動車・携帯電話用ハーフレート音声符号化方式の日本標準として採用された。

審査要旨

 本論文は、「ピッチ周期化雑音励振源を用いたCELP音声符号化方式の研究」と題し、8章より構成されている。現在,ディジタル自動車電話・携帯電話用の音声符号化方式にはビットレート11.2kbit/sのものが実用されているが、本論文はその半分のビットレート5.6kbit/sで従来のものとほぼ同一の音声品質が得られる符号化方式を研究したものである。

 音声ディジタル符号化方式としては、現在、CELP方式と略称される方式が広く用いられている。基本的には、音声のスペクトル包絡に対応する全極型線形フィルタを線形予測法により構成し、これを残差信号で励振することによって音声波形を再生する方式である。ただし、この励振源とする信号波形をそのまま伝送するのでは低ビットレートが実現できないので、あらかじめ用意した2n個の励振源波形を送信側と受信側の符号帳に記憶させておき、送信側では入力音声にもっとも近い再生波形を与える励振源波形を符号帳から選択してその番号(n bit)のみを伝送する。

 この方式でビットレートを半分にするもっとも簡単な方法は、符号化の単位としているサブフレームの時間長5msを2倍10msに延長することであるが、従来の方式のままで単純にサブフレーム時間長を10msとすると再生音声品質が劣化する。上記の符号帳は、実際には、適応符号帳、雑音符号帳、利得符号帳と呼ばれる3個のもので構成されているが、本論文で提案する方式は、このうちの雑音符号帳に改良を加えて、再生音声品質の劣化を防止しようとするものである。

 第1章は序論であり、本研究の目的、従来の研究と本研究の特徴、および、本論文の構成を述べている。

 第2章は「CELP音声符号化方式」と題し、本論文で提案する方式の基礎となるCELP音声符号化方式について解説している。

 第3章は「ピッチ周期化雑音励振源を用いたCELP音声符号化方式」と題し、本論文で提案する方式の原理を説明している。CELP方式で用いる3個の符号帳のうち、適応符号帳にはピッチ周期を与える一群の数値が記入されている。これは、もともと、音声のピッチ周期成分を表現するためのものであるが、励振源波形の生成には前サブフレームで使用した励振源波形を利用している。すなわち、前サブフレームの波形先頭からこの数値分の長さを切り出し、これをサブフレーム上に並べたものを生成波形とする。これで表現できない成分は雑音符号帳に記入されている成分を追加して補うが、雑音符号帳に記入されている波形には周期的な成分はない。したがって、前サブフレームが無音であったとすると、現サブフレームには適応符号帳によって与えられるはずのピッチ周期成分が全く出現しないことになる。サブフレーム時間長を10msに延長すると、1サブフレームは複数のピッチ周期が入る長さとなり、その間に周期成分が全く出現しないのでは音声品質が著しく劣化する。そこで、雑音符号帳に記入されている波形を適応符号帳で指定された周期長と同じ長さで切り取り、これを並べて周期性を持つ波形を生成する。雑音符号帳に記入されている一群の波形からもっとも適切なものを選択して周期化することにより、音声波形が急速に変化している領域での歪みを減少させることができる。

 第4章は「雑音符号帳の複数チャネルによる構成」と題し、雑音符号帳を複数のチャネルに分割して各チャネルの出力の和で励振源波形を生成する構成法について、符号帳メモリ量、励振源選択に要する演算量、音声品質、符号伝送誤り耐性等を検討したあと、実用性の高い2チャネル構成雑音符号帳の設計を与えている。

 第5章は「ピッチ周期化雑音符号帳の閉ループ学習による構成」と題し、提案した雑音符号帳の内容を多数の音声サンプルから学習手法で生成する方式を報告している。学習時の評価尺度としては全サンプルに対する再生音声波形歪みの総和を用いている。

 第6章は「移動平均予測方式による線形予測パラメータの符号化」と題し、試作システムで採用した線形予測パラメータの符号化方式について説明している。

 第7章は「提案システムの評価」と題し、上記符号化方式を用いたシステムの再生音声品質を評価した結果を報告している。雑音符号帳のピッチ周期化によって、客観評価とした波形歪みSN比が1.6dB、主観評価としたオピニオン等価Q値が1.1dB向上している。

 第8章は結語であり、本研究の成果を要約している。

 以上を要するに、本論文は、ディジタル自動車電話・携帯電話用のためのビットレート5.6kbit/sの音声符号化方式について研究し、CELP符号化方式においてサブフレーム時間長を10msに延長した場合の音声品質の劣化を防止するために、その雑音符号帳にピッチ周期化を導入する方式を提案したもので、信号処理工学上寄与する所が大きい。よって本論文は博士(工学)の学位請求論文として合格と認める。

UTokyo Repositoryリンク