学位論文要旨



No 115526
著者(漢字) 阪本,正治
著者(英字)
著者(カナ) サカモト,マサハル
標題(和) ウェーブレット変換を用いた音声信号処理
標題(洋)
報告番号 115526
報告番号 甲15526
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(数理科学)
学位記番号 博数理第146号
研究科 数理科学研究科
専攻
論文審査委員 主査: 東京大学 教授 山田,道夫
 東京大学 教授 薩摩,順吉
 東京大学 教授 楠岡,成雄
 東京大学 教授 時弘,哲治
 東京大学 助教授 石岡,圭一
 和歌山大学 教授 河原,英紀
内容要旨

 ウェーブレット変換の基底関数は,時間的にも周波数的にも局在し,しかも相似性を有していることから,低い周波数では高い周波数分解能が,また,高い周波数では高い時間分解能がそれぞれ得られるいわゆる定Q型分析を与える手法となっている.驚くべきことに,このようなウェーブレット変換と聴覚末梢系の周波数分析機能には高い類似性があることが知られている.ウェーブレット変換は.他の定Q型分析手法と比較しても,時間分解能と周波数分解能の最適配分,基底関数の選択の自由度,逆変換の存在,不連続性の検出能力などの点において優れているため,近年,音響信号処理の分野での利用が広まってきている.

 本論文ではウェーブレット変換を用いた二つの新しい音声解析手法を提案する.本論文第一部では音声分離手法について,また第二部ではピッチ検出手法について,それぞれ新しい手法の提案とその実音声解析への応用結果を述べる.

 第一部では,音源分離問題における音/音声の時間-周波数解析にウェーブレット変換を導入し,知覚上の手がかりを利用した音源分離アルゴリズムの構築を行う.人間は,複雑な音環境において特定の音ないし音声に着目し,その音・音声を選択的に聞き取る能力を持っている.この能力はしばしばカクテルパーティー効果と呼ばれ,人間の音・音声認識能力の大きな特徴であるが,多くの研究にもかかわらず依然としてそれを実現する機構が不明であるため,これを機械(自動音声認識システム)に行わせることは現段階では非常に難しい.カクテルパーティ効果に代表されるような聴覚機構の仕組みを説明する有力な説は,聴覚器官と脳で音を時間-周波数平面上の知覚的な要素に分解し,分解された知覚要素を経験的な手ががりによって音源毎に再統合している,というものである.そのような経験的手がかりには,非常に多くのものがあると考えられるが,Bregmanは次の四つを挙げている.

 1.共通の立ち上がり,立下り.

 2.滑らかな変化は1つの音源内での変化を示し,急激な変化は新しい音源がなり始めたことを示す.

 3.調波関係にある成分どうしは同じ音源からの成分である.

 4.一つの音響的事象の変化は,その音を構成する各成分に同時に同じような影響を与える

 最近Brownらは,混合音を時間-周波数平面上での知覚要素に分解しこれらの手がかりを用いてグループ化する,という手法を用いる音源分離システムを提案した.この手法は音源の数や音源間の相関などに関する拘束がなく柔軟性を備えているが,その基本となる時間-周波数解析の手法は,フィルター分析と複雑な差分方程式から成っており,工学的操作性の点からも扱いにくいものとなっている.実際,彼らの方法は,入力音を蝸牛基底膜の実測結果から導かれたGammatoneフィルターで周波数分析し,その結果を,機械・神経系変換の計算モデルである有毛細胞シナプスモデルに通して周波数帯域毎の神経発火頻度のパターンとして取り出す,というものであるが,有毛細胞と聴神経シナプスでの神経伝達物質の挙動のレベル依存性などのため,工学的操作性等の点で問題の残るものである.

 本論文で提案する手法は次のようなものである.まず,複数の音源からなる混合音を,複素ガボールウェーブレットによるウェーブレット変換によって時間-周波数面に展開する.複素ウェーブレット係数は,音響信号の周波数構造と時間構造を調べる際,絶対値がいわゆるスペクトログラムに相当する表現を与えるため,時間-周波数平面上における主成分の遷移方向やオンセット・オフセット時刻の検出に有利である.またガボールウェーブレットの実部・虚部がそれぞれその中心周波数付近の周波数で周期的に振動する関数であることから,周期性解析にも都合がよい時間-周波数表現となっている.本音源分離システムでは,まず,実部から各チャンネルの自己相関関数を計算し,さらにチャンネル間で自己相関関数の同期性を調べることで,周波数軸上で周期性に基づいたグルーピングを行う.一方,複素ウェーブレット係数の絶対値から主成分の遷移方向を求め,それに沿って主成分を時間方向にトラックする.これら両者の結果を統合することで,時間-周波数平面上で音響事象の構成単位としてのサブグループが得られる.さらに,これらのサブグループをBregmanの手がかりを用いてグルーピングすることによって,時間-周波数平面上において音源の分離を行なう.時間-周波数平面において分離された結果は,逆ウェーブレット変換によってそれぞれの分離音の再合成に用いることも可能である.しかし,一般にこの手法では,主成分の遷移方向に基づいた追跡は,二つの音源の主成分が交差した場合には,どちらも追跡出来ず途切れてしまうことがあるなど頑健性に欠ける.主成分の不連続性は,再合成音においてはミュージカルノイズと呼ばれる雑音の原因となる.このような問題を解決するためにここでは,分離の結果は各音源のピッチ周期軌跡を推定するにとどめ,各チャネルの自己相関関数上で各音源のピッチ周期に相当する遅れ時間にピークの有無を判定して,再度各音源への時間-周波数成分の割付を行うこととした.本論文ではこの手法を,男声と女声の混合音,および,種々の雑音と音声の混合音の分離,にそれぞれ適用した.その結果,既存の手法では,音源数や音源間の相関などの前提条件が整わないと分離が困難である同時発話音声の分離にも適用できることがわかった.

 本論文の第二部ではウェーブレット変換を利用したピッチ検出アルゴリズムを扱う.ピッチ検出とは,音声信号の基本周期の検出を指し,声帯振動の基本周期を検出することに等しい.ピッチ検出は音声分析において最も重要な課題であり,従来多くのピッチ検出アルゴリズムが提案されてきた.しかし,語頭や語尾においては声帯振動が周期性を持たないこと,基本周波数の変動範囲が広いこと,声道形状の変化に伴い音声波形が変化することなどの理由から,現在でも安定かつ正確にピッチ周期を検出することは非常に困難である.

 ピッチ検出の手法は,音声波形の周期性を調べる方法と,声門閉鎖点などエポックを検出する手法に大別できる.エポックを検出する手法は,エポックの時間間隔から1周期毎に変動するピッチ周期を検出できる利点があるものの,母音の種類によって安定に検出できないものがあったり,高ピンチ音声の検出が難しいなど,適用範囲が限定されているという問題があり,周期性を調べる方法が一般的に多く用いられている.

 最近Kadambeは,ピッチ波形のエポックを検出する手法の一つとして,ウェーブレット変換の不連続点検出能力に着目し,音声波形から声門閉鎖点を検出する手法を提案した.一般に音声波形は,声門閉鎖点において急峻に立ち上がる.したがって逆に,音声波形が急峻に立ち上がる点から声門閉鎖点を検出する方法が考えられる.スムージング関数の一次微分として設計したウェーブレットを用いてウェーブレット係数のローカルピークから信号が急峻に変化する時刻として,声門閉鎖点を検出できる.この手法は,ウェーブレット係数のローカルピークから声門閉鎖点を決める手法にはあいまいな点があるものの,原理的には妥当であるので再考の余地がある.

 そこで,声門閉鎖点とウェーブレット変換のピーク時刻との関係を明らかにするために,EGG波形をもとに検出した実音声の正確な声門閉鎖点を用いた実験を行い,次のような知見を得た.

 1.声門閉鎖点に対応していないピークの間隔は,声道形状の変化に伴い大きく変動するが,声門閉鎖点に対応するピークの間隔は滑らかに変化し,声道形状が変化しても急変することはない.

 2.ウェーブレット係数のピークのうち声門閉鎖点に最も近いピークの間隔は,声門閉鎖点の間隔に非常によく一致する.また,その一致の度合いは,どのスケールでも同程度である.

 3.各スケールでのウェーブレット係数のピーク時刻と声門閉鎖点は,小さいスケール(中心周波数が高い)の方が良く一致する.

 このような知見から,ウェーブレット係数のピークから声門閉鎖点を検出するには,まず,声門閉鎖点間隔(ピッチ周期)が時間的に滑らかに変化することを利用して,声門閉鎖点の間隔に一致し,かつ,声門閉鎖点の近傍にあるローカルピークを検出し,次に,小さいスケールでのピークに合うように間隔を変えないで声門閉鎖点候補をシフトするのが良いという結論を得た.本論文では,ピッチ周期の連続性を距離尺度に取り込んだダイナミックプログラミングを用いて,ウェーブレット係数のローカルピークから声門閉鎖点を検出する手法を提案する.すなわち,直前の声門閉鎖点の間隔がわかっていれば,次の声門閉鎖点もその間隔だけ離れた付近にあると考え,近すぎるピークや遠すぎるピークに対するDPスコアを小さく見積もる手法である.ここで,さらに考慮すべきこととして,同じ話者でも,ピッチ周期は発声中に1オクターブ以上変化することがあるという点が挙げられる.そのため,複数のスケールで独立にDPを行い,得られた数多くのDPパスの中から最適なものを選ぶという過程が必須となる.本手法では,選択基準としてDPパスの中で最も長いものを最適パスとして選択するよう決めている.本手法の要旨は以下のようにまとめられる.

 1.声門閉鎖点間隔(ピッチ周期)の連続性に着目し,ウェーブレット係数のピークから,ダイナミックプログラミングによって声門閉鎖点間隔の連続性の良いピークを選び,声門閉鎖点を推定する手法である.それには,以下の処理が含まれる.

 ・仮説に基づいて,DPパスを削除,延長,統合する処理.

 ・最も長いDPパスを最適なDPパスとして選択する処理.

 2.声門閉鎖点をより正確に検出するために,推定された声門閉鎖点同士の間隔は変えることなく,小さいスケール(高城)でのピークに合うようにシフトする処理.

 男声話者100文章の発声について,ウェーブレット変換から求めた声門閉鎖点の精度を求めた.EGG波形から求めた声門閉鎖点を正解とすると,39625個の声門閉鎖点について,93.07%の精度で声門閉鎖点が検出できた.誤差6.93%の内,挿入エラーが1.92%,脱落エラーが5.01%であった.また検出した声門閉鎖点の間隔は,ほとんど正解に一致している.これは,ピッチ周期が高精度に求まっていることを示す.推定された声門閉鎖点を,小さいスケールのピークに合うようにずらすことで,シフト後の推定された声門閉鎖点と正解の声門閉鎖点のずれの標準偏差は,シフト前の約70%に減少し,シフトの効果が確かめられた.また,高ピッチ音声や,発声中のピッチ変動が1オクターブにも及ぶような音声にも適用できることが確かめられた.母音の種類やピッチの高低によらず高精度に声門閉鎖点を検出できる本手法は,ウェーブレット変換を使うことで初めて実現できたものであり,今後,高品質の音声合成やピッチ同期の音声分析への適用が期待される.

審査要旨

 ウェーブレット変換の基底関数は、時間的にも周波数的にも局在し相似性を有している点に特徴がある。驚くべきことにこのようなウェーブレット変換と聴覚末梢系の周波数分析機能には高い類似性があることが知られており、他の定Q型分析手法と比較しても、時間分解能と周波数分解能の最適配分、基底関数の選択の自由度、逆変換の存在、不連続性の検出能力などの点において優れていることから、近年、音響信号処理の分野での利用が広まってきている。

 本論文ではウェーブレット変換を用いた2つの新しい音声解析手法を提案し、第一部では音源離手法、また第二部ではピッチ検出手法について、それぞれ新しい手法とその実音声解析への応用を論じている。

 第一部では、音源分離問題における音/音声の時間-周波数解析にウェーブレット変換を導入し、知覚上の手がかりを利用した音源分離アルゴリズムの構築を行っている。いわゆるカクテルパーティ効果に代表されるような聴覚機構を説明する有力な説は、聴覚器官と脳で音を時間-周波数平面上の知覚的な要素に分解し、それらの知覚要素を経験的な手がかりによって音源毎に再統合している、というものであり、Bregmanは、心理実験によってどのような手がかりが利用されているかを明らかにしている。最近Brownらは、このような聴覚機構をモデル化した音源分離システムを提案したが、その基本となる時間-周波数解析の手法はフィルター分析と複雑な差分方程式から成り、工学的操作性等の点で問題の残るものであった。

 これに対し本論文では、複数の音源からなる混合音を、複素ガボールウェーブレットによるウェーブレット変換によって時間-周波数面に展開し、この処理結果に基づく音源分離システムを提案している。この方法は、まずガボールウェーブレット変換の実部から各チャンネルの自己相関関数を計算、さらにチャンネル間で自己相関関数の同期性を調べることで、周波数軸上で周期性に基づいたグルーピングを行う。またウェーブレット係数の絶対値からは、主成分の遷移方向を求め、それに沿って主成分を時間方向にトラックし、これら両者の結果を統合することで、時間-周波数平面上で音響事象の構成単位としてのサブグループを得る。さらに、これらのサブグループをBregmanの手がかりを用いてグルーピングすることによって、時間-周波数平面上において音源の分離を行なう、というものである。

 このようなデータ分離操作においては、しばしば主成分の不連続性に基づくミュージカルノイズを伴うが、本論文ではこれを避けるため、分離の結果は各音源のピッチ周期軌跡の推定に用いるにとどめ、各チャネルの自己相関関数上で各音源のピッチ周期に相当する遅れ時間にピークの有無を判定して、再度各音源への時間-周波数成分の割付を行なっている。

 本論文では、この手法の構成を述べた後、本手法を男声と女声の混合音、および、種々の雑音と音声の混合音の分離、にそれぞれ適用し、この手法が、既存の手法では音源数や音源間の相関などの前提条件が必要な同時発話音声の場合でも、音源分離に適用できることを示している。

 本論文の第二部ではウェーブレット変換を利用したピッチ検出アルゴリズムを扱っている。ピッチ検出、即ち声帯振動の基本周期の検出は、音声分析において最も重要な課題であり、従来多くのピッチ検出アルゴリズムが提案されてきた問題である。しかし、語頭や語尾においては声帯振動が周期性を持たないこと、基本周波数の変動範囲が広いこと、声道形状の変化に伴い音声波形が変化することなどの理由から、現在でも安定かつ正確にピッチ周期を検出することは非常に困難である。

 最近Kadambeは、音声のピッチを声門閉鎖点のエポックの間隔から検出する手法を論じ、ウェーブレット変換の不連続点検出能力を利用して音声波形が急峻に立ち上がる点として声門閉鎖点を検出する方法を提案している。この方法は、スムージング関数の一次微分として設計したウェーブレットを用いて、ウェーブレット係数のローカルピークから声門閉鎖点を検出するものであるが、ウェーブレット係数のローカルピークから声門閉鎖点を決める手法にはあいまいな点があり、原理的には妥当であるものの問題を残す手法であった。

 本論文第二部では、ピッチ周期の連続性を考慮するダイナミックプログラミングを用いて、ウェーブレット係数のローカルピークから声門閉鎖点を検出する手法を提案している。この方法は、次の声門閉鎖点は直前の声門閉鎖点間隔とほぼ等しいと考え、近すぎるピークや遠すぎるピークに対するスコアを小さく見積もる手法である。さらに本論文では、同じ話者でもピッチ周期は発声中に1オクターブ以上変化することがあるという点を考慮し、複数のスケールで独立に検討し、得られた数多くの候補の中から最適なものを選択するアルゴリズムを構築している。本論文ではこの手法を、男声話者100文章の発声に適用して、ウェーブレット変換から求めた声門閉鎖点の精度を検討し、検出した声門閉鎖点の間隔が高精度で求められることを示している。母音の種類やピッチの高低によらず高精度に声門閉鎖点を検出できる本手法は、ウェーブレット変換を使うことで初めて実現できたものであり、今後、高品質の音声合成やピッチ同期の音声分析への適用が期待される。

 以上のように、申請者の論文では、ウェーブレット解析の音声処理への応用を論じ、音源分離手法とピッチ検出手法について、それぞれ新しい手法とその実音声解析への応用を示している。この研究は、ウェーブレット解析を、音声解析の大きなアルゴリズムに組み込み、実用上意味のあるシステム全体としてまとめあげた点で高く評価できるものである。

 よって、論文提出者阪本正治は、博士(数理科学)の学位を受けるにふさわしい充分な資格があると認める。

UTokyo Repositoryリンク