学位論文要旨



No 214257
著者(漢字) 安部,素嗣
著者(英字)
著者(カナ) アベ,モトツグ
標題(和) 聴覚情景解析のシステムとアルゴリズムの研究
標題(洋)
報告番号 214257
報告番号 乙14257
学位授与日 1999.03.17
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第14257号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 安藤,繁
 東京大学 教授 藤村,貞夫
 東京大学 教授 舘,すすむ
 東京大学 教授 田中,英彦
 東京大学 助教授 石川,正俊
内容要旨 1 本論文の目的

 本論文は,聴覚情景解析を計算論的に実現するシステムとそのアルゴリズムを論じたものである.特に知能化聴覚センサにとって混合音環境下での情報選択が不可欠であるとの認識から,将来のセンサへの実装を可能にすることを考え,構造的にシンプルなアルゴリズムの構築を目的とする.そのために本論文では,次の三点について具体的な実現法を与えることを問題意識とする:1)フロントエンドの最適な時間周波数分析法,2)効率的かつシンプルな特徴抽出法,および3)ストリーム構成要素が自然に分凝する情報統合法.

2 本論文の構成

 本論文は,序論,結論および下記7章の,全9章で構成される.

 1.聴覚末梢情報表現の要件

 2.対数線形構造の実現

 3.音の三要素分解法

 4.音の三要素分解法に基づく聴覚情景解析

 5.共有FM/AMの時間周波数統合に基づく聴覚情景解析

 6.リズムの独立な複数音列の聴覚情景解析1:心理実験

 7.リズムの独立な複数音列の聴覚情景解析2:計算モデル

3 本論文の概要3.1 聴覚情景解析

 カクテルパーティ効果として知られるように,人間は混合音環境下においても高い音響認識力を有する.Bregmanは,この機能に関して1)音響信号はスペクトログラムに似た多数の要素に分解されること,2)同じ音源から発せられた要素がグループ化されてストリーム(一つのまとまりとして知覚される音)を形成すること,3)グループ化のされやすさ(分凝要件)は,周波数の調和的関係,共通の周波数変化,共通の振幅変化,成分の連続性などに関係していることを指摘し,聴覚情景解析という新たな枠組を提案した.

3.2 聴覚末梢情報表現の要件

 従来提案されてきた計算論的な聴覚情景解析システムのフロントエンドは,1)線形周波数フィルタバンクを利用するもの,2)対数線形フィルタバンクを利用するもの,3)聴覚模擬フィルタ(ガンマトーンフィルタバンク)を利用するものに大別される.これらを聴覚末梢系との整合性,数学的な合理性と知能化センサとしての実現性,および情報統合に適した表現という観点から検証した結果,AM/FM変化に対する記述力,聴覚との対応や音色のピッチ不変性などの点で対数線形フィルタバンクが適しているとの結論を得た.

 対数線形分解のための計算論的なアルゴリズムとして,ウェーブレット変換

 

 を用いる.は対数周波数を表す.

 一方で,センサとしてより基底膜に近い形で対数線形分解マイクロフォンを実現することは,時間効率的にもエネルギー効率的にも意義がある.本論文では,共振子アレイをバネ要素で接続した連成振動系が基底膜と等価な構造であることを導き,これを平板機械構造で実現した.

3.3 音の三要素分解法:対数線形構造に基づく特徴抽出

 対数線形構造のAM/FM変調の記述に適した特性を生かし,任意のウェーブレットエネルギーF(t,)=の瞬時変動を,次の三成分に分解することを考える:1)音量変動:全周波数に一様な拡大・縮小成分,2)音程変動:全周波数に一様な周波数シフト成分,3)音色変動:上記2成分では表し得ない変動成分(図1).これらは音源の物理的性質との対応,数学的直交性,人間の感覚量との対応などの点での合理性を有し,また各成分の大きさは,入力音の変動を表す新たな特徴量となる.

 三要素分解演算は,ウェーブレットエネルギーとその勾配間の線形微分方程式

 

 により定式化される.音色変動(残差)Gの2乗エネルギー∫G2(t,)dを最小化することで,その時刻の音量変化率,音程変化率,および各変動成分の2乗エネルギが得られる.図2に,音声に対する三要素分解結果を示す.

3.4 聴覚情景解析のアルゴリズム3.4.1 音の三要素分解法に基づく聴覚情景解析

 共通のAM変調やFM変調は強力なストリーム分凝要件である.ここではウェーブレットエネルギの拡大縮小変動・シフト変動を共有する成分をストリームであると定義し,その分離統合アルゴリズムを構成する.

 複数ストリームのウェーブレット分布には,一般にストリームが分離している部分と重畳している部分が混在する.短時間や局所周波数的な例外を除いて分離している部分が多い場合,三要素分解法を時間・周波数共に局所的な領域に適用することで,その領域にあるストリーム断片の音量変化率mと音程変化率mを,その誤差分散と共に推定できる(mは局所領域を表す添字).

 変化を同一にする成分をストリームとして融合し異なる成分を分離するため,同一時刻の全周波数区間で得られる全てのm,mを,,を軸とするノンパラメトリックな確率密度空間にParzen推定法に基づき投票する.

 

 投票法では,ストリーム交差などの局所的な例外部分の推定値は投票空間全域にばらつくため,同一変化成分の融合を阻害しにくい.

 各時刻で求まる確率密度分布系列を時間軸方向に統合することにより,より信頼度の高いストリームパラメータの抽出が行われる.ここでは動的最適推定の枠組で統合する.時間的な連続性や滑らかさをダイナミックスとしてノンパラメトリックカルマンフィルタを設計し,逐次的に最適なストリームパラメータを推定する.図3に実験結果を示す.

3.4.2 共有AM/FMの時間周波数統合に基づく聴覚情景解析

 音声の基本周波数のように,主として位相情報により表現される特徴量もまたストリームの形成に関係する.ここでは対象を疑似周期信号に限定し,サブバンド波形(t,)より得られる瞬時特徴量によりストリーム統合を行う聴覚情景解析システムを構成する.

 ここでのウェーブレット変換の役割は,調和音やその混合音をほぼ単一周波数成分しか含まない信号に分解することにある.特徴抽出段階では,分解されたサブバンド信号断片のそれぞれについて,1)瞬時周波数(IF),2)周波数変化率(FCR),3)振幅変化率(ACR)を属性として抽出する.振幅変化率は,サブバンド出力に対する通常の微分(Eular微分)では周波数変化の影響を受けるため,ストリームと共に移動する座標系による微分(Lagrange微分)で求める.

 この段階で,各サブバンド信号は時間周波数領域での隣接関係を解き放たれ,新たに基本周波数,FM,AMの類似性に基づいたグループ化が行われる.具体的なアルゴリズムには前節で述べた投票法を利用し,IF,FCR,ACRを軸とする三次元空間に形成される属性の頻度分布を作る.時間軸統合にも前節で述べたノンパラメトリックカルマンフィルタを利用する.

3.4.3 リズムの独立な複数音列の聴覚情景解析

 前節で扱った同時的聴覚情景解析に対し,音の粒だち(本論文では音素)が時系列として規則的に到来する音についても,それらが群化されて一つのストリームを成す場合と,分離されて別個のストリームとして認識される場合があり,これは継時的聴覚情景解析と呼ばれる.

 本論文では,独立なリズム(音列の繰り返し的構造)を有する複数音列の分凝を心理学的な立場と計算論的な立場の両側面から検証し,リズム構造に基づく聴覚情景解析アルゴリズムを構築する.

 まず,心理物理実験により独立なリズムを有する2音列に対する人間の群化の傾向を調査し,人間の複数音列に対する分凝傾向として,1)属性の等しい2音列は,リズムの違いだけでは群化されないこと,2)属性の差は,2音列の群化を促進すること,の2つの結論を得た.

 計算論的な立場からは,音列のリズム構造を記述するため,まず音素iを,立ち上がり時刻tiとその属性(例えば基本周波数)iで表されるとモデル化する.リズム構造は音素属性の繰り返し構造であるから,現在入力された音素と過去に入力された音素との時間差・周波数差を投票することで,秩序的な関係が投票空間に分布として表現される.投票分布は音列の自己相関関数と等価であり,独立なリズムの音列は,投票空間で異なる(複数の)ピーク群に集約される.さらに,入力音列と分布の比較により,ひとつのリズム共有する音列を分離抽出するアルゴリズムを構成する.図4に複数の打楽器音に対する実験結果を示す.

図1:音の三要素分解:任意の変動を音量変動・音程変動・音色変動の三成分に分解する.図2:音声の三要素分解:各変動成分の大きさの相対比率を合計1として表示.各時刻で,白色部の長さが音量変動,灰色部の長さが音程変動,黒色部の長さが音色変動を表す.母音の変わり目や子音部では音色変動が支配的となり,母音部では音量・音程変動が支配的で,抑揚やピッチ変化を抽出していることが確認される.図3: 三要素分解に基づく聴覚情景解析の実験:混合音のウェーブレットエネルギーから,本文で述べたアルゴリズムに従い音量変化率/音程変化率を同一にする成分を抽出したもの.ホルン音が抽出されていることが確認される.図4: 複数リズム音列の分凝:MIDI音源により作成した和太鼓音とティンパニ音の合成.それぞれ独立なテンポで鳴っている.本文で述べたアルゴリズムによる分凝により,ティンパニによる音列が抽出されていることが確認される.
審査要旨

 聴覚情景解析は,聴覚心理学者Bregmanによって,複数音源環境における人間の音響知覚の仕組みを心理学と計算論の双方から統一的に研究する枠組みとして提唱された新しい研究分野である。本論文は,この分野へのセンシングの立場から独自なアプローチを扱っている。すなわち,聴覚の生理学的知見や心理学的知見を出発点とし,その機能の精察とセンシング方式と信号処理の数理的なモデリングを通じて,聴覚の複数音源分離能力を,将来の知能化センサに組み込むべきアルゴリズムとして実現することを目的としたもので,全体で9章から構成されている。

 第1章の序論においては,上記の問題意識が整理されるとともに,これまでの生理学的,心理学的,計算論的研究を概観し,知能化センサとしての聴覚情景解析という論文提出者のアプローチを,最適なフィルタバンク,時間周波数空間の信号素片の局所的ラベリング,カルマンフィルタによる統合の三段構造として定義し,位置づけている。

 第2章は「聴覚末梢情報表現の要件」と題し,音響信号の時間周波数表現を得るためのフィルタバンクの最適構成に関して論じ,対数周波数に関して一様な特性をもつ対数線形フィルタバンクが最適であると結論している。続く第3章は「対数線形構造の実現」と題し,対数線形な時間周波数分解を具体的に実現する方法を論じ,蝸牛基底膜の対数線形な周波数特性を模擬する音響センサとしては,平板状の機械振動系であるフィシュボーン構造の基礎的特性を導き,計算的方法としてはウエーブレット変換が本論文の目的に有効であることを示している。

 第4章は「音の三要素分解法」と題し,対数線形に時間周波数分解された信号素片を統合する独自の原理として,ウエーブレットエネルギーの瞬時変動を,全周波数に一様な増大,一様な並進,それ以外とに分ける三要素分解法を提案している。また,これを音声,金属缶の打撃音,楽音と音声の混合音などに適用し,セグメンテーションやピッチ抽出を含む特徴抽出に有用であると述べている。続く第5章は「音の三要素分解法に基づく聴覚情景解析」と題し,前章で導いた三要素分解比を時間周波数信号素片のラベルとし,これらを全ての周波数について投票して得られるヒストグラム分布のピークから,複数音源を分離統合するアルゴリズムを構築している。さらに,これらの分布の時系列を,ノンパラメトリックカルマンフィルタにより時間方向に統合する方法を提案し,計算機シミュレーションと楽音と音声の混合音の実データを用いた実験により,有効性を明らかにしている。

 第6章は「共有FM/AMの時間周波数統合に基づく聴覚情景解析」と題し,サブバンド分解された波形の瞬時振幅と瞬時周波数とそのLagrange型変化率を時間周波数信号素片のラベルとするアルゴリズムを構築し,対象が疑似周期信号に限定されるものの,音源の分離統合にとってより豊富な情報を利用した鋭敏な方法となることを示している。

 第7章と第8章は「リズムの独立な複数音列の聴覚情景解析1:心理実験,2:計算モデル」と題し,音素が時系列として規則的に到来する音について,それらが群化されストリームを形成する仕組みについて,論文提出者の先駆的取り組みを紹介している。第7章では,心理実験によって,大きさ/高さ/長さの音素の属性が等しい2音列はリズムの違いだけでは分離知覚し得ないこと,属性の差は2音列の分離を促進することを報告している。続いて第8章においては,このような時系列的聴覚情景解析問題への一つの計算モデルとして,相対時間差・属性差の投票法によるピーク形成とラベリングアルゴリズムを提案し,実験により基本的性能を確認している。

 最後の第9章は結論であり,以上の成果を総括するとともに,将来の発展方向や応用展開について論じている。

 以上,要するに,本論文は,聴覚の複数音源環境における優れた分離知覚能力を,工学的システム,特に知能化センサの基本構造とアルゴリズムとして導入することを目指し,分離知覚に最適なフィルタバンクの構成,時間周波数信号素片のラベリング特徴量,周波数軸方向と時間軸方向の最適な統合アルゴリズムの3点に関して,新しい原理と基礎理論および理論的根拠の明確なアルゴリズムを与えたもので,本研究のセンシング技術と信号処理技術への波及効果は大きく,計測工学上の貢献が大きい。よって,本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク