本論文は、人間が混合音から一つひとつの音を分離して聴取することにより、聴覚を通じて周囲の状況を理解する機能に着目し、これを情報処理の観点から定式化およびモデル化するとともに、この機能の工学的な実現について論じたものである。 人間が音を分離聴取する機能は、現象としては古くから注目されてきたが、そのメカニズムに関しては、これまで部分的な説明が与えられているに過ぎず、実質的には殆んど明らかにされていない。本研究では、まず人間のこのような機能を"聴覚的情景分析"の問題として整理した。聴覚的情景分析という語を提示したBregmanが、人間の聴覚的情景分析に関与すると考えられる心理学的知見を列挙したのに対し、本論文では、聴覚的情景分析を具体的に情報処理の課題としてとらえ、考察を加えた。 本論文ではまず、新たに「知覚的な音」(perceptual sound)の概念を提示した。知覚的な音とは、音響的事象に対応する記号表現である。本論文では、聴覚的情景分析の問題を、種々の事象に由来する音響エネルギーが混在したエネルギー表現をもとに、これを音響的事象に対応する知覚的な音として体制化(organize)し、構造を持った記号表現として抽出することであると考えた。 このような問題では、一般に、一意の解を特定するための制約が十分でない。従って、聴覚的情景分析における本質的な課題は、適用可能な種々の情報を組み合わせ、それぞれの時点において最も確からしい知覚的な音の内部像を構築することである。そこで本論文では、聴覚的情景分析を、ベイズ推定を理論的基盤とする階層的情報統合の問題として定式化した。 本論文における階層的情報統合の手法は、パールが提案したベイジアンネットワークに基づいている。この手法は、定量性(統合する情報の定量性を保ったまま最尤の仮説を求めることができる)、安定性(情報統合において、仮説ネットワークの状態の発散や振動が生じないことが理論的に保証されている)、効率性(数多くの種類の緩い制約を少ない計算量で統合することができる)、および柔軟性(仮説ネットワークに対して与える情報の種類やその順序が任意である)なとの特徴を備える。このため本手法は、聴覚的情景分析を実現する上で、従来の機械認識システムの研究で用いられてきた階層型モデル、非階層型モデル、黒板モデル、マルチエージェントモデルなどに比較して、最も適した特性を持つと考えられる。 このような情報統合モデルを核として、本論文では、聴覚的情景分析の問題を解決するための具体的な情報処理モデルを提案した。この処理モデルは、音楽音響信号を対象とする聴覚的情景分析を例題として構成されており、上記の階層的情報統合モデルに対し、情報を与える処理モジュールを配置したものである。情報統合のための仮説ネットワークの具体的構成、および各処理モジュールの構成は、複数種類の楽器演奏が混在したモノラルの音楽音響信号を入力とし、楽器毎の演奏情報(周波数成分、リズム、単音、および和音)を抽出して出力するシステムとして応用することを意図して定められている(図1)。 図1:本論文で提案する処理モデルの全体像 本モデルは、(A)前処理部、(B)主処理部、(C)知識源、および(D)後処理部の四つの部から成る。 前処理部は、入力音響信号を時間と周波数に関するエネルギー表現に変換するとともに、このエネルギー表現上における特徴を周波数成分として抽出し、リズム情報によりこれを整形して、主処理部に対する入力となる処理単位(processing scope)を形成する部分である。 主処理部は、提案する処理モデルの中核を成す部分であり、抽象度の低い順に(1)周波数成分、(2)単音、および(3)和音の三つの抽象度の階層を持つ。この階層は知覚的な音の階層構造に対応している。ここで、単音は、個々の音符に対応する記号表現である。和音は、複数の単音によって特徴づけられる記号表現である。それぞれの階層は、時間に対応する次元を持っている。主処理部は、これら三つの階層に対応する仮説ネットワークを備えており、それぞれの階層のある時間区間(処理単位)において、一般に複数の仮説を保持する。この仮説ネットワークに対して、(a)抽象度の低い階層から抽象度の高い階層への情報表現の変換を行うボトムアップ処理モジュール、(b)抽象度の高い階層から抽象度の高い階層への情報表現の変換を行うトップダウン処理モジュール、(c)時間の推移に関する情報を扱う処理モジュール、の三つの群に分けられる処理モジュールが情報を書き込む。 主処理部における各処理モジュールは、それぞれ必要に応じて知識源を参照する。知識源としては、和音遷移に関する統計データ、和音構成音に関する統計データ、和音認識ルール、単音を構成する周波数成分に関するデータ、音色の特徴空間、および単音形成のための知覚的ルールを備える。 後処理部は、主処理部の仮説ネットワークにおいて最尤となった仮説を、目的に応じた形で出力するためのものである。 本モデルは、(1)ボトムアップ処理の検討において、従来定性的に扱われていた人間の音源分離知覚を促進する要因について心理実験を行い、定量的な観点からのモデル化を行った点、(2)音の分離に関する従来の研究では検討例に乏しかったトップダウン処理および継時的処理について具体的に検討を行った点、および(3)情報の統合において、従来用いられていたルールベースの黒板モデルなどの定性的なモデルではなく、仮説ネットワークに基づいた定量的なモデルを導入した点、などの諸点において類例を見ない独創的なものである。 以上のような検討に基づいて、音楽音響信号を対象とする聴覚的情景分析の実験システムの実装を行った。実験システムは、ネットワーク上に分散配置された各処理モジュールが独立に動作し、仮説ネットワークに対して非同期的に情報を書き込む形態で実装されている。従って、システムの柔軟性および保守性が極めて高い点が特徴となっている。 さらに、実装した聴覚的情景分析の実験システムに対して、処理精度の観点から評価実験を行った。評価実験においては、5種の自然楽器音を収録したサンプラを用い、テスト用の音符パターンおよびサンプル曲を演奏させたものを試料として、知覚的階層の各レベル(ここでは周波数成分、単音、および和音)における知覚的な音の抽出精度を測定した。その結果、拍に関する情報、単音の記憶に関する情報、および和音進行に関する情報をそれぞれ統合した場合、これらを統合しない場合に比較して、知覚的な音の抽出精度が著しく向上することが実証された。これによって、提案する階層的情報統合モデルの有効性が示された。 本論文には、次の二つの点で意義がある。一つめは、人間の聴覚的情景分析機能のモデル化という観点からの意義である。近年、心理学の分野において聴覚的情景分析に関連する聴覚的性質の測定が行われてきているが、計算理論としての検討、即ち何が計算されているのかの検討は未だ十分なものではない。これに対し本論文のモデルでは、各処理モジュールで計算される内容が明らかにされているとともに、処理モジュールが連係したモデル全体としては、対象の状態に関する最尤推定が行われることが明確にされている。 本論文の二つめの意義は、応用的な観点からのものである。本論文では、聴覚的情景分析の題材として、複数種類の楽器を演奏した音響信号から単音記号列を抽出する処理を扱っている。この処理は、計算機上で音楽演奏情報を扱う上で必要となる最も基本的な処理であるが、複数種類の楽器音が混在した音響信号を扱うことのできるシステムはこれまで実現されていなかった。 本論文で提案する処理モデルでは、処理対象を限定する知識源が処理のメカニズムから分離されている。従って、システムの処理対象を音楽以外の音響信号に拡張することも可能である。将来、人間と計算機とが生き生きとした自然な情報交換を行うためには、計算機が周囲の状況について人間と共通の理解を持つ上で、本論文で提示した知覚的な音の抽出および聴覚的情景分析の考え方が必須のものとなるであろう。従って、本論文において考察した技術的事項は、将来的には、より進んだヒューマンマシンコミュニケーションのための要素技術としても発展し得るものである。 |