近年、計算機能力の向上とともに人間の知的機能の実現を目指した研究が行われてきている。その中でも音楽音響信号から音符列等の記号表現を抽出する処理(自動採譜処理)は、音楽のデータベース化や創作活動の支援などへの応用が考えられ、実現へ向けて研究が進められてる。最近では対象として複数音源による複数音からなる演奏が用いられているが、その場合、抽出精度は未だ実用のレベルには達していない。 これは、複数音が同時に存在することでそれぞれの音の情報が干渉により変形され、あるいは隠蔽されることが原因の1つとして挙げられる。従来の研究ではこの問題への対応として、各音源ごとに高調波パターンを準備して単音の抽出に用いたり、あらかじめ音源ごとに知識データを準備した上で、認識結果と照合して誤りを訂正するなどの処理が提案されている。しかしながら、前者ではあらかじめ音源名を指定する必要があり、また後者では十分な補完は行えていない。 複数音の重なりによる影響は2つに大別できる。1つは、本来抽出するべき単音の情報が欠落すること。もう1つは、抽出されるべきでない単音の情報が混入することである。前者の影響は知識等を用いない場合には回避が困難である。一方、後者は他の単音の情報が混入していると考えられる場合にそれを用いないようにすることで影響を軽減することが可能である。しかしながら、従来の研究ではこの点に関する処理が行われていなかった。 また、人間が音楽を耳にする場合には各単音を個別に認識することが可能であるが、実際には個々の単音を聴くのではなく、時間的に近接した複数の単音をまとめて知覚する傾向にある。従来の研究例では、このような時間的なつながりを考慮した例は少なく、それらの例においても時間的に局所的な考慮に留まるものであった。 そこで、本研究では音の重なりに関する影響への対応として、音源同定処理に用いる各単音の特徴量の値を重なりの有無や特徴量の性質に応じて再計算し、重なりの影響を軽減する手法を提案した。また、再計算が困難な場合には、その特徴量を音源同定処理に用いないようにすることで、複数音の重なりの影響を軽減する。 さらに、音の時間的なつながりに着目した処理として、複数の単音を連結してストリームを形成し、それに対して音源同定処理を施す手法を提案した。この手法では、従来の単音に対する音源同定処理と比べて、処理に利用できる単音数が増えることになる。これにより、各単音における音の重なりの影響を平均化によって軽減することが可能となる。 また、ストリームの形成においては、単音、フレーズ、パートという3階層を提案した。フレーズは1〜数小節程度の局所的な構造に相当し、パートは曲全体において単一楽器に由来する単音の集合にあたる。これらのうち、フレーズの形成において局所的な遷移を、パートの形成において大局的な遷移を考慮する手法を用いた。従来、単音を対象として大局的な情報を用いることは、組合せの爆発などの問題により困難であったが、本手法では、フレーズを対象とすることでこれを回避できる。 フレーズ形成処理では、隣接する単音間の音色の類似度を計算した。また、単音間の音高の変化から計算される遷移確率を統計的に得られた値から求め、フレーズ形成の根拠とした。 パート形成処理では、隣接するフレーズに対して、音色類似度に加え、フレーズの推移する音域の近さを表す音域類似度、フレーズ内の旋律の類似性から得られる旋律類似度を計算した。それらが高いフレーズの組を接続していくことでパートを抽出した。 一方、音源同定処理では、各楽器音の特質に応じて、特徴量に重みを与える処理を施した。例えば、クラリネットでは偶数倍音のエネルギーが小さいなど音源に固有の特質がある。そのような特徴量を重視する処理を加えることで、音源同定精度の向上が期待できる。 ランダムノートパターンを用いた評価実験の結果、音の重なりの存在下で、特徴量の再計算により精度は約73%から約81%へ、また、音源同定処理における重み値の導入では、導入の有無によって約71%から約80%へといずれも1割程度処理精度が向上した。この結果は、特徴量の再計算と重み値の導入の有効性を示すものである。 ストリーム抽出に関する評価実験では、3つの楽器からなる曲を対象とした場合に、最大で再現率約90%、適合率約94%を得た。このことから、本論文で用いた処理によってストリームの抽出が可能であることが明らかとなった。 最後に、ストリームが抽出された場合と、各単音のみを対象とした場合で音源同定精度を比較したところ、楽器の組合せによって44%〜65%の精度が、50%〜100%へと向上した。また、実験で用いた楽器の組合せ全てにおいて精度の向上が見られた。 これらの実験結果から、自動採譜処理におけるストリーム抽出の効果と、提案したストリーム抽出および音源同定手法の有効性が明らかになった。 |