学位論文要旨



No 111122
著者(漢字) 柏野,邦夫
著者(英字)
著者(カナ) カシノ,クニオ
標題(和) 音楽音響信号を対象とする聴覚的情景分析に関する研究
標題(洋)
報告番号 111122
報告番号 甲11122
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3366号
研究科 工学系研究科
専攻 電気工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 渕,一博
 東京大学 教授 原島,博
 東京大学 教授 坂内,正夫
 東京大学 教授 石塚,満
 東京大学 教授 廣瀬,啓吉
内容要旨

 本論文は、人間が混合音から一つひとつの音を分離して聴取することにより、聴覚を通じて周囲の状況を理解する機能に着目し、これを情報処理の観点から定式化およびモデル化するとともに、この機能の工学的な実現について論じたものである。

 人間が音を分離聴取する機能は、現象としては古くから注目されてきたが、そのメカニズムに関しては、これまで部分的な説明が与えられているに過ぎず、実質的には殆んど明らかにされていない。本研究では、まず人間のこのような機能を"聴覚的情景分析"の問題として整理した。聴覚的情景分析という語を提示したBregmanが、人間の聴覚的情景分析に関与すると考えられる心理学的知見を列挙したのに対し、本論文では、聴覚的情景分析を具体的に情報処理の課題としてとらえ、考察を加えた。

 本論文ではまず、新たに「知覚的な音」(perceptual sound)の概念を提示した。知覚的な音とは、音響的事象に対応する記号表現である。本論文では、聴覚的情景分析の問題を、種々の事象に由来する音響エネルギーが混在したエネルギー表現をもとに、これを音響的事象に対応する知覚的な音として体制化(organize)し、構造を持った記号表現として抽出することであると考えた。

 このような問題では、一般に、一意の解を特定するための制約が十分でない。従って、聴覚的情景分析における本質的な課題は、適用可能な種々の情報を組み合わせ、それぞれの時点において最も確からしい知覚的な音の内部像を構築することである。そこで本論文では、聴覚的情景分析を、ベイズ推定を理論的基盤とする階層的情報統合の問題として定式化した。

 本論文における階層的情報統合の手法は、パールが提案したベイジアンネットワークに基づいている。この手法は、定量性(統合する情報の定量性を保ったまま最尤の仮説を求めることができる)、安定性(情報統合において、仮説ネットワークの状態の発散や振動が生じないことが理論的に保証されている)、効率性(数多くの種類の緩い制約を少ない計算量で統合することができる)、および柔軟性(仮説ネットワークに対して与える情報の種類やその順序が任意である)なとの特徴を備える。このため本手法は、聴覚的情景分析を実現する上で、従来の機械認識システムの研究で用いられてきた階層型モデル、非階層型モデル、黒板モデル、マルチエージェントモデルなどに比較して、最も適した特性を持つと考えられる。

 このような情報統合モデルを核として、本論文では、聴覚的情景分析の問題を解決するための具体的な情報処理モデルを提案した。この処理モデルは、音楽音響信号を対象とする聴覚的情景分析を例題として構成されており、上記の階層的情報統合モデルに対し、情報を与える処理モジュールを配置したものである。情報統合のための仮説ネットワークの具体的構成、および各処理モジュールの構成は、複数種類の楽器演奏が混在したモノラルの音楽音響信号を入力とし、楽器毎の演奏情報(周波数成分、リズム、単音、および和音)を抽出して出力するシステムとして応用することを意図して定められている(図1)。

図1:本論文で提案する処理モデルの全体像

 本モデルは、(A)前処理部、(B)主処理部、(C)知識源、および(D)後処理部の四つの部から成る。

 前処理部は、入力音響信号を時間と周波数に関するエネルギー表現に変換するとともに、このエネルギー表現上における特徴を周波数成分として抽出し、リズム情報によりこれを整形して、主処理部に対する入力となる処理単位(processing scope)を形成する部分である。

 主処理部は、提案する処理モデルの中核を成す部分であり、抽象度の低い順に(1)周波数成分、(2)単音、および(3)和音の三つの抽象度の階層を持つ。この階層は知覚的な音の階層構造に対応している。ここで、単音は、個々の音符に対応する記号表現である。和音は、複数の単音によって特徴づけられる記号表現である。それぞれの階層は、時間に対応する次元を持っている。主処理部は、これら三つの階層に対応する仮説ネットワークを備えており、それぞれの階層のある時間区間(処理単位)において、一般に複数の仮説を保持する。この仮説ネットワークに対して、(a)抽象度の低い階層から抽象度の高い階層への情報表現の変換を行うボトムアップ処理モジュール、(b)抽象度の高い階層から抽象度の高い階層への情報表現の変換を行うトップダウン処理モジュール、(c)時間の推移に関する情報を扱う処理モジュール、の三つの群に分けられる処理モジュールが情報を書き込む。

 主処理部における各処理モジュールは、それぞれ必要に応じて知識源を参照する。知識源としては、和音遷移に関する統計データ、和音構成音に関する統計データ、和音認識ルール、単音を構成する周波数成分に関するデータ、音色の特徴空間、および単音形成のための知覚的ルールを備える。

 後処理部は、主処理部の仮説ネットワークにおいて最尤となった仮説を、目的に応じた形で出力するためのものである。

 本モデルは、(1)ボトムアップ処理の検討において、従来定性的に扱われていた人間の音源分離知覚を促進する要因について心理実験を行い、定量的な観点からのモデル化を行った点、(2)音の分離に関する従来の研究では検討例に乏しかったトップダウン処理および継時的処理について具体的に検討を行った点、および(3)情報の統合において、従来用いられていたルールベースの黒板モデルなどの定性的なモデルではなく、仮説ネットワークに基づいた定量的なモデルを導入した点、などの諸点において類例を見ない独創的なものである。

 以上のような検討に基づいて、音楽音響信号を対象とする聴覚的情景分析の実験システムの実装を行った。実験システムは、ネットワーク上に分散配置された各処理モジュールが独立に動作し、仮説ネットワークに対して非同期的に情報を書き込む形態で実装されている。従って、システムの柔軟性および保守性が極めて高い点が特徴となっている。

 さらに、実装した聴覚的情景分析の実験システムに対して、処理精度の観点から評価実験を行った。評価実験においては、5種の自然楽器音を収録したサンプラを用い、テスト用の音符パターンおよびサンプル曲を演奏させたものを試料として、知覚的階層の各レベル(ここでは周波数成分、単音、および和音)における知覚的な音の抽出精度を測定した。その結果、拍に関する情報、単音の記憶に関する情報、および和音進行に関する情報をそれぞれ統合した場合、これらを統合しない場合に比較して、知覚的な音の抽出精度が著しく向上することが実証された。これによって、提案する階層的情報統合モデルの有効性が示された。

 本論文には、次の二つの点で意義がある。一つめは、人間の聴覚的情景分析機能のモデル化という観点からの意義である。近年、心理学の分野において聴覚的情景分析に関連する聴覚的性質の測定が行われてきているが、計算理論としての検討、即ち何が計算されているのかの検討は未だ十分なものではない。これに対し本論文のモデルでは、各処理モジュールで計算される内容が明らかにされているとともに、処理モジュールが連係したモデル全体としては、対象の状態に関する最尤推定が行われることが明確にされている。

 本論文の二つめの意義は、応用的な観点からのものである。本論文では、聴覚的情景分析の題材として、複数種類の楽器を演奏した音響信号から単音記号列を抽出する処理を扱っている。この処理は、計算機上で音楽演奏情報を扱う上で必要となる最も基本的な処理であるが、複数種類の楽器音が混在した音響信号を扱うことのできるシステムはこれまで実現されていなかった。

 本論文で提案する処理モデルでは、処理対象を限定する知識源が処理のメカニズムから分離されている。従って、システムの処理対象を音楽以外の音響信号に拡張することも可能である。将来、人間と計算機とが生き生きとした自然な情報交換を行うためには、計算機が周囲の状況について人間と共通の理解を持つ上で、本論文で提示した知覚的な音の抽出および聴覚的情景分析の考え方が必須のものとなるであろう。従って、本論文において考察した技術的事項は、将来的には、より進んだヒューマンマシンコミュニケーションのための要素技術としても発展し得るものである。

審査要旨

 本論文は、「音楽音響信号を対象とする聴覚的情景分析に関する研究」と題し、12章からなる。人間は、視覚や聴覚を通して外界を認識しており、それを一般に情景分析と呼ぶが、その機構を解明することは、コンピュータで高度な処理を実現するための基礎研究としても重要である。しかし、聴覚については、そのモデル化が今だなされていない。本論文は、そのような人間の聴覚的情景分析の機能に着目し、これを知覚的音源分離として情報処理の観点からモデル化するとともに、この機能を工学的に実現する為の研究を行なったものである。

 第1章「序論」では、研究の背景と目的、並びに論文の構成について述べている。

 第2章「聴覚的情景分析の問題」は、従来の関連研究の視点が、信号波形の復元を目的としていたのに対し、本論文における聴覚的情景分析の視点が、入力信号から何らかの記号表現を抽出することにあることを述べ、それが外界の理解により本質的であることを明らかにするとともに、新たに「知覚的な音」の概念を提起して、聴覚的情景分析を階層的な情報統合の問題として定式化している。

 第3章「聴覚的情景分析の処理モデル」は、音楽音響信号を対象とする聴覚的情景分析の処理モデルOPTIMAを提案し、その全体像を述べている。すなわち、システムは、モノラルの音楽音響信号を入力とし、楽器毎に分類された単音記号の列を出力する音源分離を目的とするもので、和音遷移に関する統計データや和音認識規則、単音を構成する周波数成分に関するデータ等からなる知識源と、それを用いる処理部とから構成される。

 第4章「前処理のモデル」は、提案しているシステムの前処理部分について述べたもので、入力音響信号に周波数解析と周波数成分抽出、更に、拍位置抽出処理を行なって主処理の基礎となる処理単位を形成する部分の処理を詳細に述べている。この処理は、周波数成分からみた周波数成分の端点と拍位置からみたその端点の双方の確からしさを勘案して最も確からしい端点を決定するもので、主処理の時間方向の基本単位となる。

 第5章「情報統合のモデル」は、主処理の中核をなす情報統合について述べたもので、各信号処理それぞれの段階での処理結果の確からしさと、音楽知識からくる処理結果の確からしさ等、様々な確からしさを統合して、一つのもっとも確からしい結論を導くための機構として、仮説ネットワークを形成しその上で確率を伝搬させることで統合を行なうモデルを提案し、その計算理論を導いている。

 第6章「ボトムアップ処理のモデル」は、主処理内で前述の仮説ネットワークの入力を定めるモジュールの一つであるボトムアップ処理を詳細に述べたもので、このモジュールは、周波数成分情報から個々の単音を形成するための単音クラスタリング、その処理を更にすすめて音源を推察する音源同定クラスタリング、そして和音情報の抽出という3つのモジュールからなる。

 第7章「トップダウン処理のモデル」は、もう一つの主処理要素として、仮説ネットワークに入力を与えるトップダウン処理について述べたもので、和音情報に基づいて、出現する単音の音高を予測し、ある和音の下で単音が存在する条件付き確率を与えるとともに、単音情報から出現する周波数成分を予測しある単音下での周波数成分仮説に対する条件付き確率を与えている。この情報源としては、多くの楽譜を統計的に分析して作成した条件付き確率情報と、処理開始から現在迄の音入力から形成されたパワーと周波数値のペアベクトルである音記憶を用いている。

 第8章「時間方向の処理のモデル」は、過去の状況と現在の状況を統合する時間方向での仮説ネットワークの処理について述べたもので、ある時間間隔内に存在する音を和音と判断する和音グループの同定処理と、音楽情報を統計的に分析して得られた和音の時間的遷移確率を用いる処理とからなり、後者の為に国内の音楽206曲を分析している。

 第9章は、「処理モデルの実装」で、前述のシステムOPTIMAの実装について述べるとともに、その動作について説明している。

 第10章「処理モデルの評価」は、このシステムの処理精度を評価するための評価実験結果について述べたものである。評価は基礎実験と応用実験とに分かれ、基礎実験では、周波数成分、単音、和音の3階層毎に仮説生成の精度と確率伝搬の効果を測定し、これらの有効性を立証している。また、応用実験では、このシステムを自動採譜に用いることを想定して総合的な単音認識精度を測定しており、2または3種類の楽器を用いた場合の単音認識精度と、各楽器への同定精度を調べ、前者では90数%、後者では80%程度の精度となることを示している。

 第11章は、「考察」で、評価結果について詳しく検討するとともに将来の課題についてまとめている。

 第12章は、「結論」である。

 以上、これを要するに本論文は、聴覚的な情景分析を可能ならしめることを目的としてコンピュータ処理可能なその処理モデルを提案し、その具体例として音源分離システムを作成して評価することによってその有効性を示したもので、電気工学上貢献する所少なくない。

 よって、著者は東京大学大学院工学系研究科電気工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク