学位論文要旨



No 125098
著者(漢字) ジョナトン,ルルー
著者(英字) Jonathan,LeRoux
著者(カナ) ジョナトン,ルルー
標題(和) 音環境に内在する規則性に基づくモノラル音響信号の推定・分解・復元・加工に関する研究
標題(洋) Exploiting regularities in natural acoustical scenes for monaural audio signal estimation, decomposition, restoration and modification
報告番号 125098
報告番号 甲25098
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第224号
研究科 情報理工学系研究科
専攻 システム情報学専攻
論文審査委員 主査: 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 安藤,繁
 東京大学 教授 舘,
 東京大学 教授 広瀬,啓吉
 東京大学 講師 小野,順貴
 フランス国立科学研究センターCNRS 教授 Cheveigne,Alain de
内容要旨 要旨を表示する

A crucial problem for many audio engineering applications is that most, if not all, real world situations they face are adverse ones, with strong non-stationary background noises,concurrent sources, brief interruptions due to glitches or missing packets, etc. Humans however are able to achieve a great robustness in their perception and understanding of the complex acoustical world that surrounds them, relying on statistical regularities in the original sources and the incoming stimuli.

The goal of this thesis is to propose a statistical approach to the analysis of such natural acoustical scenes, based on models of the regularities of the acoustical environment. Our main strategy is to systematically focus on a general mathematical formulation of the problem based on an objective function, so that the various subtasks can be effectively solved as well-posed constrained optimization problems, and to allow for easy extensibility of our work into other signal processing algorithms involving a statistical framework. Such a statistical approach involves solving mainly three subproblems: inference of what is happening in an acoustical scene as the best explanation of the distorted, mixed, and incomplete observations given models of the environment: reconstruction of incomplete observations based on these models: acquisition of these models from the data. We tackle all of these problems, following a common procedure: design of appropriate models and constraints: formulation of the task as an optimization problem: derivation of an effective optimization method.

After reviewing related works in Chapter 2, we start our work by introducing in Chapter 3 a statistical model for voiced speech signals in the time-frequency power domain called Harmonic-Temporal Clustering CHIC). The time-frequency domain formulation enables us to explicitly make use of grouping principles inspired from humans' auditory organization to derive a completely parametric model of voiced speech signals as constrained Gaussian mixture models with a smoothly evolving FO contour. We also introduce a broadband noise model, based on Gaussian mixture models as well , to deal with noisy environments. We explain how to formulate scene analysis tasks as the fitting of a mixture of such models to the observed spectrogram, and derive an effective method to estimate the optimal parameters,based on the EM algorithm. We show in Chapter 4 through experimental evaluation that our method outperforms state-of-the-art algorithms in classical scene analysis tasks such as FO estimation in clean, noisy, or concurrent environments, denoising, and source separation.

In Chapter 5, we explain how scene analysis based on statistical models can be extended to deal with incomplete stimuli through an auxiliary function method. Meanwhile, we study the theoretical relation of this auxiliary function method with the EM algorithm in the particular case of Bregman divergences. We show through experimental evaluation that the proposed method enables to simultaneously perform the analysis of an underlying acoustical scene such as a polyphonic music signal and to reconstruct its missing part.

We then note that although we may gain by discarding the difficult to model phase part when working in the time-frequency magnitude domain, we also lose in several ways. First, if resynthesis is necessary, the absence of phase information needs to be dealt with by estimating the phase from the available information, i . e. , the magnitude spectrogram. The estimation of a phase which corresponds well to the magnitude spectrogram is crucial to avoid very disturbing perceptual artifacts in the resynthesized signal. Second, we lose the additivity of signals, as cross-terms in the square of a sum are in general not equal to zero. Third, phase may actually be, for some classes of sounds, a relevant cue which is worth being exploited. In all cases, working in either the complex time-frequency domain or the time domain is a natural answer to deal with the problem. We present two frameworks to do so.

The first one, which we present in Chapter 6, is based on a careful study of the particular structure of complex STFT spectrograms. Due to the redundancy of the STFT representation,an arbitrary set of complex numbers in the complex time-frequency domain is not guaranteed to be what we call a "consistent" spectrogram, i.e., the STFT spectrogram of an actual time-domain signal. We derive a mathematical characterization of consistent spectrograms,and from it a cost function to measure the consistency of an arbitrary set of complex numbers in the complex time-frequency domain. We use this cost function to build an algorithm for phase reconstruction from magnitude spectrograms, and show that it is both more flexible and more efficient than the state-of-the-art method. Moreover, we note that the cost function we derive is a natural candidate to define a prior distribution on complex spectrograms, and as such likely to be used in a wide range of signal processing algorithms in the future.

The second framework, shift-invariant semi-NMF (SSNMF), is presented in Chapter 7. It is based on a direct modeling of the signal waveform, in the time domain, simply assuming that the observed waveform is the superposition of a limited number of elementary waveforms,added with variables latencies and variable but positive amplitudes. The model is more general than the HTC model presented in earlier chapters, in the sense that it is less constrained: it can represent any kind of sound, and is not limited to harmonic ones. A sparseness prior is used on the amplitudes to ensure that the elementary waveforms capture meaningful information recurring at various time instants. We derive an optimization algorithm for this model, and show that it can be used to effectively recover recurring templates together with their activation times from the waveform of a mixture, even in the difficult case where the various templates overlap, with examples in audio signals and extracellular recordings.

Finally, we investigate the unsupervised acquisition of models based on the data,observing that, although much can be obtained using tailored models based on prior knowledge,what we can get from them will be limited by the quality and appropriateness of that prior knowledge. We first explain how the SSNMF framework presented in Chapter 7 performs a sort of data-driven learning, and how it could be used to learn compact basis for natural sound signals. Then, noting that an often overlooked but important issue when performing time-frequency analysis is to determine the analysis parameters, we consider in Chapter 8 the unsupervised learning of time-frequency analysis filterbanks. Motivated by the central role which seems to be played by modulation in auditory perception, we design a mathematical framework to investigate the hypothesis that the human ear and brain, and in particular the peripheral system, adapted for modulation analysis through a data-driven learning process. Optimizing a filterbank on speech data under a modulation energy criterion, we show that the optimized filterbank is close to classical ones, and the hypothesis pertinent.

審査要旨 要旨を表示する

音声アプリケーションや通信システムなどの音を媒体としたあらゆるアプリーケーションを実現する上で、非定常で強い背景雑音、複数音源の同時観測、あるいは機器の誤作動や欠損パケット等の影響による通信の中断など、我々が身近に直面しうる複雑な現象を扱うことが重要な課題となる。しかし我々人間は周囲の複雑な音響情景を、信号源の知識や所与の観測信号の統計的規則性に基づいて頑健に認識し理解することができる。

本論文の目的は、音環境に内在する規則性のモデルに基づき、かくのごとく複雑な観測信号から音響情景を解析するための統計的アプローチを確立することである。本アプローチでは主として、(1)ある音環境モデルのもとで、何らかの原因で歪み、複数の音が混在し、あるいは部分的に欠損したような観測信号データに対し、どのような音響的事象が生じているかについての最も自然な解釈を与える問題、(2)上記モデルに基づき欠損した情報を復元する問題、(3)上記モデルを観測データから自律的に獲得する問題を扱っている。これらすべての問題に対し、数理的定式化を通して目的関数を立てて解決を図ることを基本戦略とし、これにより様々な問題を拘束つき最適化問題として見通しよく解決することができた。

第2章で関連研究をサーベイした後、第3章ではまず音響情景解析を目的とした時間周波数パワー領域における統計的モデルを導入している。平らな基本周波数(F0)の音楽信号を対象に亀岡により導入された周波数時間構造化クラスタリング(HTC)法を、音声のようにF0が滑らかに変動する信号に適応できるように拡張した。時間周波数領域で定式化を行うことにより、人間の聴覚機能における音脈分凝プロセスに用いられている音声の規則性を明白に取り入れた拘束付き混合正規分布の完全にパラメトリックな音声信号モデルを導入できた。滑らかに変動するF0包絡を3次元スプラインにより表現することで、元の手法の最適化アルゴリズムの効率性を保ちながら音声信号へ対応できるようにHTC法を拡張した。また、混合正規分布に基づいた背景雑音モデルを導入し、雑音と音声が混合する音響情景のモデリングを可能にした。第4章では、評価実験により音声信号のクリーン・雑音中・複数話者のF0推定や音声強調・音源分離といった音響情景解析の様々なタスクにおいて提案手法が従来法より優れていることを示した。

第5章では、不完全データから情景解析を行うためにこのモデルを拡張する方法、欠損データを復元する方法を説明している。補助関数法を用いることにより、全般的に分布のフィッティングに基づく手法の不完全データへの拡張が可能であることを証明した。フィッティングの良さを測る尺度がBregmanダイバージェンスという尺度のクラスに属する場合に補助関数法とEM(Expectation-Maximization)アルゴリズムとの関係を明白にした。提案手法により不完全データからの情景解析と欠損データの復元を同時に行うことが可能になることを評価実験で確認した。

続いて、パワースペクトル領域処理の限界を超えること、また、位相情報を有効利用することの重要性に着目し、複素時間周波数領域における位相の無矛盾性規準を第6章で導入し、時間領域の適応的テンプレートマッチングの枠組を第7章で構築している。第5章までは位相情報を使わずパワースペクトル領域で処理を行ったが、それによるいくつかの課題を説明している。パワースペクトルから信号の再合成が必要な場合は失われた位相情報をパワースペクトルと位相との無矛盾性を考慮しながら推定しなければいけない。また、パワースペクトルの加法性が近似的に成り立つ(音源間の干渉項を無視できる)ことを仮定したが、加法性が成り立っていない場合の処理も考えられなければならない。最後に、音のクラスによって位相情報が有効な特徴になり、それを積極的に利用する手法も考えるべきである。全ての点において、複素時間周波数領域か時間領域での処理が自然な解決となりうることに着目し、各領域での手法を第6章と第7章で導入している。

第6章では短時間フーリエ変換(STFT)で得られる複素スペクトログラムの構造を分析し、パワースペクトルと位相の無矛盾条件を明白にしている。重なり合うフレームのフーリエ変換により構築されるSTFTスペクトログラムが時間信号の冗長な表現であるため、複素時間周波数領域での任意の複素数の集合がかならずしもある時間信号から得られたSTFTスペクトログラムであるわけではない。そういったスペクトログラムを無矛盾スペクトログラムと呼び、時間周波数領域での数理的な無矛盾性拘束を導出し、その下で任意のパワースペクトルから無矛盾な位相を復元する高速かつ柔軟性の高いアルゴリズムを導入した。

第7章では、観測信号が少数の基礎的なテンプレートの任意のオンセット時刻と非負な振幅での重ね合わせからなるという仮定の下で、時間領域で波形を直接モデル化する適応的テンプレートマッチング手法を提案し、効率的な最適化アルゴリズムを導出している。テンプレートが重なっているという困難な状況でも、信号内に繰り返し起こるテンプレートをデータから自動的に取り出し、そのオンセット時刻及び振幅を推定できることを音楽信号や生理的信号での実験により確認した。

最後に、第3章から第6章までは時間周波数領域で作業を行うために、ウェーブレット変換あるいは短時間フーリエ変換という、古典的なフィルタバンクから得られた時間周波数表現を用いたが、第8章では観測データから信号の時間周波数分析に一番適しているフィルタバンクを学習することを検討している。人間の聴覚に重要な役割を果たすとされている信号の変調構造に着目し、信号の変調構造を効率良く抽出できるように聴覚末梢系を適応させる人間の機能についての仮説を数理的な枠組みで定式化し、音声データからの変調エネルギー基準下でのフィルタバンク学習実験で妥当なフィルタバンクが得られることを確認した。

本論文の大きな成果は、広範囲な用途がありながら解決が難しいとされてきたモノラル入力からの音響情景解析の問題の本質を明確に整理し、代表となるモノラル信号推定・分解・復元・加工の問題を、統一的な着眼点の下で効率的に解決した点にある。

以上を要するに、本論文は博士(情報理工学)の学位請求論文として十分に合格と認められる。

UTokyo Repositoryリンク