学位論文要旨



No 128461
著者(漢字) 伊藤,信貴
著者(英字)
著者(カナ) イトウ,ノブタカ
標題(和) 拡散性雑音に頑健なマイクロフォンアレイ信号処理に関する研究
標題(洋) Robust Microphone Array Signal Processing against Diffuse Noise
報告番号 128461
報告番号 甲28461
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第372号
研究科 情報理工学系研究科
専攻 システム情報学専攻
論文審査委員 主査: 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 安藤,繁
 東京大学 教授 原,辰次
 国立情報学研究所 准教授 小野,順貴
 東京大学 客員准教授 亀岡,弘和
 INRIA Rennes 研究員 Emmanuel,Vincent
内容要旨 要旨を表示する

We consider the general problem of microphone array signal processing in diffuse noise environments. This has various applications epitomized by speech enhancement and robust Automatic Speech Recognition (ASR) for microphone arrays. Diffuse noise arriving from almost all directions is often encountered in the real world, and has been one of the major obstacles against successful application of existing noise suppression and Direction-Of-Arrival (DOA) estimation techniques. We operate in the time-frequency domain, where signal and noise are assumed to be zero-mean Gaussian and modeled by their respective covariance matrices.

Firstly, we introduce a general linear subspace model of the noise covariance matrix that extends three state-of-the-art models and propose a fourth more flexible real-valued noise covariance model.

Secondly, we apply this general model to the task of diffuse noise suppression with a known target steering vector. In the state-of-the-art Wiener post-filtering approach, it is essential to accurately estimate the short-time power spectrum of the target signal. Our algorithm estimates it based on denoising the observed covariance matrix by projecting this matrix onto the orthogonal complement of the linear subspace noise model. The proposed method was validated through experiments with both synthetic and real-world noise.

Thirdly, we address the task of DOA estimation of multiple sources. The performance of the state-of-the-art MUltiple SIgnal Classification (MUSIC) algorithm is known to degrade in the presence of diffuse noise. In order to mitigate this effect, we estimate the signal covariance matrix and subsequently apply MUSIC to it. The estimation relies on the previously derived noise-free component of the observed covariance matrix and on the reconstruction of the remaining component via matrix completion techniques. We design two alternative algorithms based on low-rank matrix completion and trace-norm minimization that exploit the low-rankness and the positive semidefiniteness of the signal covariance matrix. The performance of the proposed methods and the models were compared with a large database we created.

Finally, we present a technique for diffuse noise suppression with an unknown target steering vector. The steering vector and the power spectrogram of the target signal are jointly estimated using the noise-free component of the observation covariance matrix. The derived algorithm updates the steering vector and the power spectrogram alternatively. In the real-world validation, the proposed method outperformed a state-of-the-art blind algorithm called Independent Vector Analysis (IVA); the proposed method gave an output Signal-to-Noise Ratio (SNR) higher by approximately 7dB.

審査要旨 要旨を表示する

本論文は、拡散性雑音の存在下での雑音抑圧ならびに信号到来方向推定に対して新しい理論を構築し、従来技術に対する性能の大幅な改善を実験的に検証した論文である。

従来から、少数の点音源から生じる雑音(少数の妨害話者の音声、テレビから発生する音声や音楽など)に対しては、適応信号処理や独立成分分析などの手法を用いてマイクロフォンアレイの指向性を制御し、雑音に対して死角を向けることで雑音を効率的に除去したり、目的信号の到来方向を精度よく推定したりできることが知られていた。しかしながら、実環境での雑音は少数の点音源から到来するとは限らず、例えば雑踏、広場、カクテルパーティなどでは多数の音源から雑音が到来するし、電車内などでは窓や車体が振動して面的な雑音源となる。このような雑音(以下では拡散性雑音と呼ぶ)は指向性制御だけでは除去することができず、また方向推定精度も劣化させるため、アレイ信号処理を実環境に適用する上での大きな課題の一つであった。

このような限界は、従来のアレイ信号処理が、観測信号のベクトルがなす信号空間で定式化されていたことに起因している。すなわち、少数の点音源から生じる雑音はこの空間における低次元部分空間を張るため、観測信号をその直交補空間に正射影することにより雑音に侵されない成分を得ることができるのに対し、多数の点音源から生じる拡散性雑音は信号空間全体を張るため、信号空間における正射影によって雑音に侵されない成分を得ることはできない。これに対し、本論文では、信号空間の代わりに観測信号の空間共分散行列のなす行列空間で目的信号と拡散性雑音をモデル化し、拡散性雑音の空間共分散行列が低次元行列部分空間に属するというモデルに基づき、その直交補空間への正射影により拡散性雑音に侵されない成分を得る新しい信号処理のアプローチを提案している。

本論文第三章では、上述の拡散性雑音の行列部分空間モデルについて論じられている。このモデルは従来の三つの拡散性雑音モデルを特別な場合として含むことが示される。これらのモデルは特別なアレイ配置に対してのみ有効であるが、本章では新たに任意のアレイ配置に適用可能な実数値共分散モデルも導入されている。また、実世界の雑音に対する各モデルの当てはまりを比較するため、実環境雑音のデータベースを作成し、それを用いた評価実験も行っている。以下、第四章から第六章では、上述の拡散性雑音の行列部分空間モデルに基づき、拡散性雑音の存在下での雑音抑圧ならびに信号到来方向推定について論じている。

本論文第四章では、到来方向既知の目的信号に対する拡散性雑音抑圧の問題を扱っている。拡散性雑音抑圧の標準的な手法であるWienerポストフィルタリングにおいては、目的信号のパワースペクトログラムを正確に推定することが重要である。本章では、上述の行列空間における正射影によって得られる、理想的には雑音に侵されない成分を用いて正確にこれを推定する方法を提案している。実環境雑音を用いた実験により、提案法の雑音抑圧性能が従来法を上回ることが示されている。

本論文第五章では、拡散性雑音に頑健な複数の目的信号の到来方向推定について論じている。複数音源の到来方向推定の標準的手法であるMUltiple SIgnal Classification (MUSIC)では、目的信号の空間共分散行列の正確な推定が重要である。第四章と同様に、行列空間における正射影により目的信号の空間共分散行列の雑音行列部分空間の直交補空間への正射影が得られる。一方、目的信号の空間共分散行列の雑音行列部分空間への正射影は拡散性雑音の寄与を含むが、目的信号は少数の方向から平面波として到来し、従ってその空間共分散行列は低ランクであると仮定すれば、この低ランク性を手がかりに目的信号の空間共分散行列を復元できる。本章では、低ランク行列補完に基づくアルゴリズムとトレースノルム最小化に基づくアルゴリズムを提案している。大規模データベースを用いた評価実験により、提案法により従来のMUSICを大幅に上回る方向推定精度が得られることが示された。

本論文第六章では、実環境では目的信号の到来方向も未知であることが多いことを踏まえ、到来方向未知の目的信号に対する拡散性雑音抑圧法が提案されている。この場合、上述のWienerポストフィルタリングを行うためには、目的信号のパワースペクトログラムに加えステアリングベクトルも推定することが必要である。本章では、上述の行列空間での射影に基づく雑音に侵されない成分の取得と目的信号の空間共分散行列の低ランク性に基づき、これらを同時推定するための反復アルゴリズムが導出されている。提案法により、標準的なブラインド音源分離手法である独立ベクトル分析と比較して、大幅に上回る雑音抑圧性能が得られることが実環境実験により示されている。

本論文(英文100頁)全体の学術的な完成度は高く、高度な概念を簡にして要を得た仕方で論じており、英語はネイティブでない学生としては卓越している。また、多数の文献引用から、学位申請者が当該分野における様々な研究を熟知していることが示されている。本論文は新規性も高く、低ランク性やスパース性などの数学的概念が拡散性雑音の統合的モデルに導入されたのは、本論文が初めてであると考えられ、マイクロフォンアレイ信号処理の分野において、適応信号処理の性能のブレイクスルーなど、大きなインパクトを与える可能性がある。本論文の内容は、既に当該分野における主要論文誌であるIEEE Transactions on Audio, Speech and Language Processingに論文1編(主著)が掲載されたほか、主要な国際会議論文4編(うち主著3編)および国内大会・研究会論文8編(主著)の出版につながっている。また、申請者はIEEE Signal Processing Society Japan Chapter Student Paper Awardを始めとする4件の学会賞を受賞している。

審査における発表は、分かりやすく構成も良好であった。外国人審査員を交えて英語で発表を行い、質疑応答でも的確に回答するなど、英語でのコミュニケーション能力も十分であった。予備審査において提起された疑問点に対する回答として、短期間に新しい理論の構築や色々な実験的検討を行ったことも高く評価できる。

以上を鑑み、本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク