学位論文要旨



No 121590
著者(漢字)
著者(英字) Md. Khademul Islam Molla
著者(カナ) モラ エムディ カデムル イスラム
標題(和) 劣条件下における単一および2個の混合信号からのブラインド信号分離
標題(洋) Blind Separation of Audio Sources from Single and Stereo Mixtures with a Special Consideration on Underdetermined Condition
報告番号 121590
報告番号 甲21590
学位授与日 2006.03.23
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第172号
研究科 新領域創成科学研究科
専攻 基盤情報学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 柴田,直
 東京大学 教授 相田,仁
 東京大学 教授 相澤,清晴
 東京大学 助教授 峯松,信明
 東京大学 助教授 杉本,雅則
内容要旨 要旨を表示する

The separation of mixed audio signals is the problem of automated separation of audio sources present around a set of differently placed microphones, capturing the acoustical scene. The whole problem resembles the task a human can solve in a cocktail party situation, where using two sensors (ears), the brain can focus on a specific source of interest, suppressing all other sources present (cocktail party problem). In this thesis, we examine the audio source separation problem using a range of approaches to segregate the component sources from monophonic and stereo recordings. In particular, we consider underdetermined condition (i.e.the number of sensors is less than the number of sources) which is a challenging topic in the field of blind source separation.

Independent component analysis (ICA) is a recently developed statistical method to tackle the blind source separation (BSS) problem. ICA does not work directly in the underdetermined case. We have successfully implement ICA to separate speech and interfering signals from single mixture. The mixed signal is projected to time-frequency (TF) space. A finite set of independent basis vectors are derived from the TF space by applying principal component analysis (PCA) and ICA sequentially. The vectors are clustered to represent the independent subspaces corresponding to the component sources in the mixture. The time domain source signals are reconstructed from the subspaces. The separation efficiency is greatly affected by the method employed in TF representation of the mixed signal. The short-time Fourier transform (STFT) and Hilbert spectrum (HS), a fine-resolution TF representation are used here. The experimental results show that HS performs better than STFT in single mixture separation.

Only the spectral information of the individual source is used in single mixture separation. It becomes difficult to separate the sources with overlapping spectra. The use small size microphone array can recover this problem increasing the separation performance. We have proposed stereo mixtures (two microphones) to perform localization based separation of the audio sources. The separation performance based on spatial localization of the sources is independent of signal contents. When the audio sources are spatially distributed, the stereo recording introduces time difference (TD) and intensity difference (ID) between two microphones' signals. These two cues (TD and ID) are used for spatial localization of the sources considering that the sources are stationary in spatial locations. Then two methods are used to segregate the sources from stereo mixtures: (i) spatial beamforming and (ii) binary masking. The linear constraint minimum variance beamformer (LCMVB) is implemented on multi-band representation of the mixture signals. We have proposed some modification of the beamformer to tackle the problem of underdetermined condition. The separation by binary masking is implemented in TF domain and HS is employed as TF representation.

In real-world application it is usual case that the sources are moving while emitting the audio signals. The stationary consideration makes the proposed separation algorithm narrow in the practical usage. The final step of this thesis is the separation of multiple moving sources from stereo mixtures. It is considered that the sources are stationary for small time frame. The separation is performed for that time slot by using binary masking method. There occurs a permutation problem among the sources separated from the successive time frames. A data-adaptive audio source discrimination method is proposed to resolve the problem. The sources separated from the consecutive frames are concatenated properly to obtain the overall separation. The proposed algorithm is applied to separate the sources from stereo mixtures recorded in the anechoic room of NTT communication research laboratory. The simulation results show a noticeable performance in the field of audio source separation. The thesis concludes by highlighting some of the as yet unsolved problems to tackle the actual audio source separation problem in full.

審査要旨 要旨を表示する

本論文は「Blind Separation ofAudi-o Sources from Single and Stereo Mixtures with a Special Consideration on Underdetermined Condition」と題し、マイクロフォンの数が音源の数より少ない劣条件下で、混合された音響信号の分離を行って原信号を得る手法について研究したものであって、全6章からなり、英文で書かれている。マイクロフォンが1つの場合と2つの場合について論じている。

第1章は「Introduction」であって、劣条件下における混合信号からの音源分離の重要性を、その具体的な応用範囲とともに指摘し、本研究の背景となる、過去の研究例を紹介している。最後に、論文の各章の概略を発表論文とともに示している。

第2章は「Time-frequency representation」と題し、信号の時間領域の波形から、時間-周波数表示のスペクトルを求める手法について考察している。一般的な短時間フーリエ変換について、スペクトルの広がりの問題を指摘し、それが、スペクトルでの音源の独立性に着目した信号分離手法で問題となることを示している。その上で、Empirical mode decompositionとHilbert変換により求めたHilbertスペクトルにより、このような問題が低減されることを示している。

第3章は「Audio source separation by subspace decomposition」と題し、単一の混合信号から音源分離を行う手法を提案している。これは、スペクトルの時間方向、周波数方向に着目して、主要成分に分け、それを独立なcomponentベクトルで表現した上で、各音源に配分するものである。配分されたcomponentベクトルから分離された音源信号を得る。短時間フーリエスペクトルを用いた場合と、Hilbertスペクトルを用いた場合を比較し、後者の優位性を示している。

第4章は「Localization based separation」と題し、2混合信号(2マイクロフォン)からの音源分離手法を提案している。マイクロフォン間の位相差と強度差をもとに、音源方向を同定するEmpirical mode decompositionで適応的に帯域に分けた後に音源方向の同定を行うことにより、性能が向上することを示している。

第5章は「Moving source separation」と題し、前章で音源が移動する場合について検討している。音源が移動する場合、各時点での音源間の対応を取る必要があるが、 Empirical mode decompositionにより帯域を分けることにより、良好な追従性を達成している。実際に遮音室で収録した音響信号について実験を行い、提案手法の効果を示している。

第6章は「Conclusion and future works」であって、本研究で得られた成果を要約するとともに、将来の研究の発展と、音声認識等への成果の利用について展望している。

以上を要するに、本論文は、劣条件下での混合信号からの原信号の分離について、原信号の事前知識を必要としないBlind条件下での幾つかの新しい手法を提案し、その有用性を実証したものであって、信号処理分野の発展に大きく寄与したものであり、基盤情報学に貢献するところが少なくない。

よって本論文は博士(科学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク