学位論文要旨



No 215032
著者(漢字) 西,一樹
著者(英字)
著者(カナ) ニシ,カズキ
標題(和) ピッチ変動に着目した擬似周期信号の最適フィルタに関する研究
標題(洋)
報告番号 215032
報告番号 乙15032
学位授与日 2001.04.13
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第15032号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 安藤,繁
 東京大学 教授 舘,章
 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 木村,英紀
 東京大学 助教授 篠田,裕之
内容要旨 要旨を表示する

1 本論文の目的

 本論文は、振幅変動やピッチ変動をともなった擬似周期信号を雑音環境下で抽出するための最適フィルタの設計法について論じたものである。具体的には、1)擬似周期信号とその推定問題に対する定義を与え、2)定常信号モデルと非定常信号モデルのそれぞれに対する線形最適フィルタの設計を試みることによって、3)最適解として得られた櫛形フィルタの時間/周波数特性に成り立つ関係の解明を通して、最終的には4)ディジタルフィルタとして実現し、5)混合音に対するピッチ推定や各擬似周期信号の個別分離アルゴリズムの開発、および6)音声認識のフロントエンドとしての有用性を検証するものである。

2 本論文の構成

 本論文は、序論、結論および下記6章の,全8章で構成される.

 1.ピッチ変動を伴う音響・音声信号のモデル

 2.定常線形最適フィルタによる音響・音声信号の分離

 3.ピッチ変動に対する定Q櫛形フィルタの性質と効果

 4.多重擬似周期信号に対するピッチ推定と個別分離アルゴリズム

 5.非定常擬似周期信号に対する線形最適フィルタ

 6.ディジタル櫛形フィルタの設計と評価

3 本論文の概要

3.1 音響・音声信号モデルと問題設定

 音響・音声信号は、大まかには周期性を保ちつつ振幅やピッチが絶えず変化する擬似周期性をもっている。このような信号のモデルとして、時変パラメータをもつ波動方程式の近似解を使って〓と定式化する。これに雑音が重畳したものy(t)=x(t)+v(t)を観測信号として、y(t)からx(t)を分離するための線形フィルタを求める問題を考える。本論文では、信号の時変構造を決定する振幅変動項Δcn(s)およびピッチ変動項w0(s)に各種の確率モデルを導入した上でこの問題を議論した。

3.2 定常擬似周期信号に対するフィルタ設計とその性質

 振幅やピッチの変動には、音楽での旋律や声の抑揚などの時間的に緩やかに変化する成分と、振動体の熱的擾乱や声帯の不規則振動による微細な変動成分がある。ここでは特に、後者の微細変動がほぼ定常的であることに着目した。一つ目の信号モデルとしては、音程(ピッチ)を一定に保ったまま発声しても、音量(振幅)は細かく変化し、そのときの基本周波数を正確に知ることも現実には困難であることを考慮し、振幅変動が定常過程をとり基本周波数が確率変数をとるとした場合、二つ目は、実際の音声データの振舞いを比較的よく近似できる、振幅と基本周波数がともに白色Gauss雑音過程をとるとした場合、のそれぞれに対するフィルタ設計を行った。

 その結果いずれの場合も、得られたフィルタの周波数特性には、1)振幅変動のみを考慮した場合は定BW(バンド幅)型の櫛形特性、2)基本周波数の変動のみを考慮した場合は定Q型の櫛形特性、3)両者を同時に考慮した場合は低次倍音から高次倍音になるにしたがって定BW型から定Q型へ徐々に遷移する複合櫛形特性、を有することが示された。特に3)の定BW/定Q複合櫛形特性は、聴覚のもつ周波数分析特性と共通性があることから、本論文の議論が聴覚システムの合理性を裏付ける根拠の一つになっていると考えられる。

3.3 定Q櫛形フィルタに成り立つ関係

 特に、ピッチ変動のみを考慮した場合の最適フィルタである定Q櫛形フィルタには、そのインパルス応答と周波数特性が共通の定Q櫛形構造をとるという興味深い性質があることを明らかにした。すなわち、インパルス応答を〓と表したとき(h0(t)はta

3.4 混合音に対するピッチ推定と個別分離アルゴリズム

 櫛形フィルタを構成するには、ピッチパラメータを事前に推定しておかなければならない。しかも一般の聴取音には、複数の音源からの信号が重畳していると考えられる。この場合を想定し、混合音中の複数のピッチ候補から目的ピッチを選択的に追跡しつつ、その軌跡上の調波成分を分離抽出するアルゴリズムを開発した。

 具体的には、複数のピッチ候補を尤度関数の多峰性により表現し、その中でピッチ変化のダイナミクスに従うものだけが最終的な目的ピッチとして選別される仕組みをNon-Parametric Kalmanフィルタにより実現した。目的信号抽出のための定Q櫛形フィルタ演算は、Wavelet空間においてピッチ軌跡から決まる各倍音周波数上の複素振幅を読みとり合成することによって等価的に実現できる。本アルゴリズムによって混合音中のピッチ軌跡が選択的に補間追跡でき、目的ストリームが分離再生できることを、シミュレーションおよび実音声実験により検証した。

3.5 非定常擬似周期信号に対するフィルタ設計

 音声や楽音などの実信号では、振幅やピッチの変動の統計的性質(期待値や分散)が時間的に変化していくことが普通である。このような3.2節では扱えなかった非定常信号モデルに対するフィルタ設計を行った。

 ここでのポイントは、複素位相項にランダム性をもつ信号モデルを伊藤確率微分方程式により記述しておくことにある。これは、各倍音成分において〓と記述できる。σ*(t)が振幅やピッチ周波数の標準偏差を表し、これを時変パラメータとしたことが3.2節との本質的な違いになっている。dβ*(t)はWiener積分の微小要素である。特に右辺第2項以降は、ともに確率過程をとる信号と雑音の積で駆動される非線形な状態依存性雑音を表し伊藤積分の意味をもつ。この伊藤積分項に注意し、上式を状態空間モデルとしてKalmanフィルタを導いた結果、フィルタ方程式〓およびRiccati方程式〓が得られることを詳細な解析の下で示した。ただし、〓である。

3.6 ディジタルフィルタの実現と評価

 さらに上式を離散化近似すると、ディジタルフィルタの形式として〓ただし、〓のような時変なフィルタ係数をもつ伝達関数が導けることを示した。3.2節の定BW/定Q複合櫛形フィルタが単一極のディジタルフィルタとしての並列接続で実現でき、各時刻において振幅やピッチの変動量に応じてフィルタの中心周波数や帯域幅が決定できる。

 振幅やピッチの変動に最適なフィルタとして得られた上式の結果が、騒音環境下での音声認識の前処理としても有用であることを確かめた。図1は、LPCケプストラムとLPCメルケプストラムにより音声「あいうえお」のスペクトル包絡を各フィルタ出力に対して求め、原音声のそれとの差を計算したものである。振幅変動とピッチ変動の両者を考慮した複合型の方が振幅変動のみを考慮した定BW型のものに比べて、いずれも全体的に良好な結果を示している。このことから、比較的安定した性能をもつ定BW/定Q複合櫛形フィルタを音声認識の前処理として用いることによって、騒音環境下での認識率を向上できる可能性が期待される。

図1:スペクトル包絡間の距離尺度を用いたフィルタ性能比較

審査要旨 要旨を表示する

 擬似周期信号は音響や音声の信号処理において頻繁に現れるにもかかわらず,明確な定義や理論的な取り扱いが困難であり,雑音除去や混合音分離などのために有効な処理手法が十分に得られていなかった。本論文は,この擬似周期信号に関して,その変化の主要な形態としてピッチ変動と振幅変動に着目し,信号生成モデルの定式化とパラメータの時間変動形態に応じた混合音分離の線形最適フィルタの導出を行い,さらにこの周波数分解特性と聴覚のメルスケールとの対応を示すとともに,複数の混在する音声信号の分離への適用実験結果を報告した論文であり,全体で8章から構成されている。

 第1章の「序論」では,擬似周期信号に関する従来の研究と対比させつつ,適切なモデル化と線形最適フィルタの設計という本論文の目的を明確化している。

 第2章は「ピッチ変動を伴う音響・音声信号のモデル」と題し,楽音と音声の擬似周期性を最もよく表現する動的モデルとして「振幅変動+ピッチ変動」モデルを提案している。これに基づき,時変パラメータをもつ共振系としてその動的な意味付けと数式モデルを与え,さらに,各変動パラメータの確率モデルの与え方に応じたフィルタ設計問題の定式化を行っている。

 第3章は「定常線形最適フィルタによる音響・音声信号の分離」と題し,まず「振幅変動+ピッチ変動」に定常不規則なガウス過程を仮定して線形最適フィルタを導いている。次に,その結果を考察し,1)振幅変動のみ存在する場合は従来の定BW(Band-Width)型の櫛形フィルタ,2)ピッチ変動のみが存在する場合には定Q型の櫛形フィルタ,さらに3)両者が同時に存在する場合には低次倍音から高次倍音になるに従って定BW型から定Q型に遷移する複合櫛形フィルタとなることを示し,2)と3)のフィルタを実際の音声信号に適した新たな分離フィルタとして提案している。さらに,振幅変動とピッチ変動の変動分散を適切に設定すると,各バンドパスフィルタの占有帯域幅が聴覚末梢系の分離特性として知られるメルスケールによく適合することを見出している。

 第4章は「ピッチ変動に対する定Q櫛形フィルタの性質と効果」と題し,前章で導いた定Q櫛形フィルタに関して,その周波数特性である定Q櫛形関数のFourier変換すなわちインパルス応答が再び定Q櫛形関数になることを,理論的に明らかにしている。そしてこの関係の応用例として,ピッチ誤差による歪みが定Q櫛形フィルタを用いることで小さく抑えられることを時間/周波数特性の両面から検証している。

 第5章は「多重擬似周期信号に対するピッチ推定と個別分離アルゴリズム」と題し,複数の擬似周期信号の混合音から単一音を分離抽出するアルゴリズムを,Non-Parametric Kalmanフィルタによって選択的に追跡し推定されたピッチ周波数を用いた定Q櫛形フィルタの動的調整によって実現している。そして,このアルゴリズムの分離再生能力をシミュレーションおよび実音声実験により検証している。

 第6章は「非定常擬似周期信号に対する線形最適フィルタ」と題し,「振幅変動+ピッチ変動」モデルのパラメータが既知の時間変動をもつ場合に一般化し,伊藤型の確率微分方程式を導入することよって,線形最適なKalmanフィルタを導いている。特に,倍音間の干渉を考慮した厳密解について考察し,従来にないノッチ特性が生成され,干渉排除効果が強化されることを示している。

 第7章は「ディジタル櫛形フィルタの設計と評価」と題し,前章で導いたKalmanフィルタを,離散化近似によって全極型のディジタルフィルタとして実現している。また,LPCケプストラムやメルケプストラムに基づくスペクトル包絡の比較実験を行い,振幅変動とピッチ変動を同時に考慮した複合櫛形フィルタが原音声を最も忠実に再現できることを確かめている。

 第8章は「結論」であり,以上の研究成果を総括するとともに,将来の応用展開について論じている。

 以上,要するに,本論文は擬似周期信号の主要な変化の形態としてピッチ変動と振幅変動に着目し,これを表現する信号モデルに基づいた最適フィルタの導出とその性質の解析を通して,聴覚の周波数特性との対応関係や,フィルタの時間/周波数特性に成り立つ関係を明らかにし,これにより応用上頻繁に現れる混合音に対して有効な分離抽出フィルタの実現法を示したもので,本研究のセンシング技術と信号処理技術への波及効果は大きく,計測工学上の貢献が大きい。よって,本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/42853