学位論文要旨



No 216458
著者(漢字) 谷口,智彦
著者(英字)
著者(カナ) タニグチ,トモヒコ
標題(和) マルチモード符号化による中帯域音声符号化の実用化に関する研究
標題(洋)
報告番号 216458
報告番号 乙16458
学位授与日 2006.02.27
学位種別 論文博士
学位種類 博士(情報理工学)
学位記番号 第16458号
研究科
専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 原島,博
 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 森川,博之
 東京大学 助教授 峯松,信明
 東京大学 助教授 苗村,健
内容要旨 要旨を表示する

音声符号化とは、音声信号の性質を利用して情報量の圧縮を行う処理をいう。通信分野においては、伝送速度の低減により伝送路資源の有効利用を、音声蓄積システムでは、蓄積情報量の低減によりメモリー資源の有効利用を果たすものとして、音声符号化に関する研究は盛んに行われてきた。特に、サービスの急速な拡大が見られる自動車・携帯電話などの移動体通信においては、無線周波数有効利用の観点から必須の技術となっている。

音声符号化技術は、ボコーダに代表される「分析合成符号化」とAPC, ADPCMに代表される「波形符号化」に大別される。前者は、音声の生成モデルに基づき分析されたパラメータから音声を再生する方式で、高い圧縮率(2kbps程度)を実現できるものの音質面では自然性などに難があり、公衆通信用途(電話品質)には適さない。後者は、音声信号を波形として忠実に再生することを目的とした方式で、ITU-T(旧CCITT)で標準化されたADPCMの場合、32kbpsのビットレートで電話品質として十分な音質が提供できる。

本論文で対象とする「中帯域音声符号化」は、両者の中間のビットレートである4〜16kbpsにおいて、電話品質に極力近い音質(通話品質)を提供することを目的としたものである。この領域の音声符号化は、有線通信はもとより無線通信(自動車・携帯電話)にも適用されるため、符号化方式としての基本性能(高圧縮・高品質)以外に、伝送エラー耐力や処理遅延といった性能も重視される。また、音声符号器の実現にはDSP(ディジタル信号処理プロセッサ)が用いられるが、小型化・低電力化・低価格化が強く求められる領域であるため、所要演算量・メモリー量の少ない方式の検討が実用化の大きな課題である。

本論文は、このような背景のもとに中帯域音声符号化の実用化に向けて行ってきた研究成果(1984〜1993)をまとめたものである。方式的なアプローチとして、次の2通りのアプローチについて言及する。第1のアプローチは、波形符号化に改良を加え低ビットレート化をはかるアプローチであり、これについてはADPCMをベースとした8〜16kbpsでの符号化方式の提案、DSPによる実時間実現と特性の評価について述べる。第2のアプローチは、波形符号化・分析合成符号化の両者の特徴を兼ね備えた方式(ハイブリッド符号化)によるアプローチで、4〜8kbpsでのCELP実用化に向けた改良方式の提案(音質改善・低ビットレート化・演算量削減・伝送エラー対策・低遅延化)について説明する。前者は、主に企業内通信システム(有線)への適用を、後者は、移動体通信システム(無線)への適用を前提に、それぞれ行われた検討である。なお、これら両アプローチに共通の課題である音質改善・低ビットレート化に対し、複数の符号化モードからディレイド・デシジョン的に最適なモードを選択する、マルチモード符号化の概念を提唱、音声符号化技術の実用化・普及に寄与した点に、著者の功績の機軸がある。

論文の構成は、以下の通り。第1章の序論に引き続き、第2章では、音声符号化方式を、波形符号化・分析合成符号化・ハイブリッド符号化の3つの範疇に分類、伝送速度と音質の関係について整理する。波形符号化・分析合成符号化・ハイブリッド符号化のそれぞれの要素技術について概説を加えた後、対象とする「中帯域音声符号化」への2つのアプローチ(波形符号化の低ビットレート化、ハイブリッド符号化の実用化)について説明する。波形符号化の代表例としては、APCとADPCMを取り上げ、その基本構成の違いについて対比する。分析合成符号化・ハイブリッド符号化については、音源モデルの違いを述べ、音声品質には優れるが、音源同定の演算量が膨大になるハイブリッド符号化の課題について言及する。

第3章では、"ADPCMに対するマルチモード符号化"と題して、第1のアプローチである「波形符号化(ADPCM)の低ビットレート化」について述べる。まず、ADPCMの原理について、主要な構成要素である適応予測器・適応量子化器の動作を解説、その特徴を、波形符号化の他の代表例であるAPCと比較する。引き続き、ADPCMによる低ビットレート化について、(1)ADPCM方式自体の改良(Multi Quantizer方式による量子化特性改善、適応ポストフィルタリング:第3.2節)、 (2)高能率帯域圧縮技術の適用(時間軸圧縮、帯域分割・不均一ビット割り当て符号化:第3.3節)、(3)可変ビットレート符号化(第3.4節)の3つの可能性を示唆する。

第4章では、"CELPの実用化とマルチモード符号化"と題し、第2のアプローチである「ハイブリッド符号化(CELP)の実用化」について述べる。まず、ハイブリッド符号化の代表的方式であるCELPの原理を解説、その実用化の課題について整理した後、後続する各節で、(1)8kbpsでの初期の実現例(第4.2節)、(2)演算量・メモリー量の削減(第4.3節)、(3)音質改善・低ビットレート化(第4.4節)、(4)伝送エラー対策・低遅延化(第4.5節)、(5)4kbpsでの実現例(第4.6節)について詳述する。

第5章では、結論として、中帯域音声符号化の実用化に関する種々の検討結果について、研究・開発の流れを時系列的に整理、標準化動向・DSP技術の進展と照らして考察を加える。1988年以前に行った ADPCMの低ビットレート化によるアプローチ、それ以降のCELP実用化のための演算量削減・音質改善のアプローチ、それぞれの業績について、その意義を述べる。

ADPCMの低ビットレート化に関する検討では、1985年当時のDSP性能で実用レベルの音質の16kbps、 8kbps音声符号器を実現した功績も大きいが、その中から生まれてきた、(1) Backward予測による低遅延符号化の考え方(16kbps LD-CELPの原型である G-CELP方式)、(2) マルチモード符号化の原点となる Multi Quantizer方式と、それによる可変レート音声符号化、(3) 適応ポストフィルタのゲイン補正制御(携帯電話・VoIP音声符号化各種標準方式G.729, G.728, G.723.1の必須特許)など、当時としては全く新しい概念が、後の各種符号化方式標準化に大きな影響を与えた業績として評価される。

CELP実用化の検討においては、様々な演算量削減・特性改善の試みを経て、演算量・メモリー量とも飛躍的に削減される木構造デルタ符号帳や、スペクトルパラメータの改良型ベクトル量子化の提案により、4kbps以下でも実用レベルの音声符号器をDSP 1チップで実現できるようになった。中でも特筆すべき業績は、(4)符号帳探索の直交化技術(PDC始め各種移動体通信用標準方式で採用)、(5)マルチモード符号化(携帯電話やMPEG Audioの可変レート音声符号化方式、MPEG4 Audioの必須基本特許)であり、これらは世界的にも認められ、現在普及する音声符号化関連製品(携帯電話・VoIP・MPEGなど)の殆どで採用されていると言っても過言ではない。

審査要旨 要旨を表示する

本論文は「マルチモード符号化による中帯域音声符号化の実用化に関する研究」と題し、中帯域のビットレート(4〜16kbps)において電話品質に近い通話品質を達成する中帯域音声符号化の実用化に向けた研究を行ったものであり、全5章からなる。8〜16kbpsでの波形符号化の改良とDSPを用いたその実時間処理、4〜8kbpsでの波形符号化と分析合成符号化の融合(ハイブリッド符号化)によるCELP(Code-excited LPC)方式の改良が主な内容である。

第1章は「序論」であって、本研究の背景、意義、目的が述べられ、また章の構成が示されている。

第2章は「音声符号化技術と実用化の課題」と題し、まず、音声符号化方式を、波形符号化・分析合成符号化・ハイブリッド符号化の3つの範疇に分類し、伝送速度と音質の関係について整理している。次に、各符号化のそれぞれの要素技術を概説した上で、次章以降の中帯域音声符号化への2つのアプローチ(波形符号化の低ビットレート化とハイブリッド符号化の実用化)について説明している。波形符号化については、APC(Adaptive Predictive Coding)とADPCM(Adaptive differential PCM)を取り上げ、その基本構成の違いについて対比しながら説明している。ハイブリッド符号化については、分析合成符号化との音源モデルの違いを述べ、音声品質には優れるが、音源同定の演算量が膨大になるというハイブリッド符号化の課題について言及している。

第3章は「ADPCMに対するマルチモード符号化」と題し、ADPCMの低ビットレート化について述べている。まず、ADPCMの主要な構成要素である適応予測器・適応量子化器の動作を解説し、その特徴を、APCと比較している。次に、ADPCM方式自体の改良としてMulti Quantizer方式による量子化特性の改善と適応ポストフィルタリング手法、高能率帯域圧縮技術の適用として時間軸圧縮と帯域分割・不均一ビット割り当て符号化を提案し、その有効性を実証している。最後に可変ビットレート符号化の提案と検証を行っている。

第4章は「CELPの実用化とマルチモード符号化」と題し、まず、ハイブリッド符号化の代表的方式であるCELPの原理を解説して、その実用化の課題について整理している。次に、8kbpsでのCELPの実現、演算量・メモリー量の削減、音質改善・低ビットレート化、伝送エラー対策・低遅延化、4kbpsでのCELPの実現、についての成果を詳述している。

第5章は、「結論」であって、中帯域音声符号化の実用化に関する本論文の種々の研究成果について、研究・開発の流れを時系列的に整理した上で、標準化動向・DSP技術の進展と照らして考察を加えている。ADPCMの低ビットレート化のアプローチ、CELP実用化のための演算量削減・音質改善のアプローチ、それぞれに着いての意義を述べている。

以上を要するに、本論文は、中帯域音声符号化の実用化に向けて行われた波形符号化方式の低ビットレート化とハイブリット符号化の実現に関する種々の研究をまとめたものであり、ADPCMに関する、Backward予測による低遅延符号化、可変レート音声符号化、適応ポストフィルタのゲイン補正制御、CELPに関する、木構造デルタ符号帳、改良型ベクトル量子化、など多くの独自性のある手法が提案されている。この中には、符号帳探索の直交化技術、マルチモード符号化技術など、現在、音声符号化関連製品で一般的に採用されている技術も含まれ、音声符号化の発展に大きく寄与したものであり、電子情報学に貢献するところが少なくない。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク