学位論文要旨詳細

学位論文要旨


No		115226
著者（漢字）		木下,智義
著者（英字）
著者（カナ）		キノシタ,トモヨシ
標題（和）		音楽音響信号を対象とした自動採譜処理に関する研究
標題（洋）
報告番号		115226
報告番号		甲15226
学位授与日		2000.03.29
学位種別		課程博士
学位種類		博士(工学)
学位記番号		博工第4721号
研究科		工学系研究科
専攻		情報工学専攻
論文審査委員		主査：　東京大学　教授　田中,英彦　東京大学　教授　井上,博允　東京大学　教授　武市,正人　東京大学　教授　廣瀬,啓吉　東京大学　助教授　坂井,修一
内容要旨		近年、計算機能力の向上とともに人間の知的機能の実現を目指した研究が行われてきている。その中でも音楽音響信号から音符列等の記号表現を抽出する処理(自動採譜処理)は、音楽のデータベース化や創作活動の支援などへの応用が考えられ、実現へ向けて研究が進められてる。最近では対象として複数音源による複数音からなる演奏が用いられているが、その場合、抽出精度は未だ実用のレベルには達していない。　これは、複数音が同時に存在することでそれぞれの音の情報が干渉により変形され、あるいは隠蔽されることが原因の1つとして挙げられる。従来の研究ではこの問題への対応として、各音源ごとに高調波パターンを準備して単音の抽出に用いたり、あらかじめ音源ごとに知識データを準備した上で、認識結果と照合して誤りを訂正するなどの処理が提案されている。しかしながら、前者ではあらかじめ音源名を指定する必要があり、また後者では十分な補完は行えていない。　複数音の重なりによる影響は2つに大別できる。1つは、本来抽出するべき単音の情報が欠落すること。もう1つは、抽出されるべきでない単音の情報が混入することである。前者の影響は知識等を用いない場合には回避が困難である。一方、後者は他の単音の情報が混入していると考えられる場合にそれを用いないようにすることで影響を軽減することが可能である。しかしながら、従来の研究ではこの点に関する処理が行われていなかった。　また、人間が音楽を耳にする場合には各単音を個別に認識することが可能であるが、実際には個々の単音を聴くのではなく、時間的に近接した複数の単音をまとめて知覚する傾向にある。従来の研究例では、このような時間的なつながりを考慮した例は少なく、それらの例においても時間的に局所的な考慮に留まるものであった。　そこで、本研究では音の重なりに関する影響への対応として、音源同定処理に用いる各単音の特徴量の値を重なりの有無や特徴量の性質に応じて再計算し、重なりの影響を軽減する手法を提案した。また、再計算が困難な場合には、その特徴量を音源同定処理に用いないようにすることで、複数音の重なりの影響を軽減する。　さらに、音の時間的なつながりに着目した処理として、複数の単音を連結してストリームを形成し、それに対して音源同定処理を施す手法を提案した。この手法では、従来の単音に対する音源同定処理と比べて、処理に利用できる単音数が増えることになる。これにより、各単音における音の重なりの影響を平均化によって軽減することが可能となる。　また、ストリームの形成においては、単音、フレーズ、パートという3階層を提案した。フレーズは1〜数小節程度の局所的な構造に相当し、パートは曲全体において単一楽器に由来する単音の集合にあたる。これらのうち、フレーズの形成において局所的な遷移を、パートの形成において大局的な遷移を考慮する手法を用いた。従来、単音を対象として大局的な情報を用いることは、組合せの爆発などの問題により困難であったが、本手法では、フレーズを対象とすることでこれを回避できる。　フレーズ形成処理では、隣接する単音間の音色の類似度を計算した。また、単音間の音高の変化から計算される遷移確率を統計的に得られた値から求め、フレーズ形成の根拠とした。　パート形成処理では、隣接するフレーズに対して、音色類似度に加え、フレーズの推移する音域の近さを表す音域類似度、フレーズ内の旋律の類似性から得られる旋律類似度を計算した。それらが高いフレーズの組を接続していくことでパートを抽出した。　一方、音源同定処理では、各楽器音の特質に応じて、特徴量に重みを与える処理を施した。例えば、クラリネットでは偶数倍音のエネルギーが小さいなど音源に固有の特質がある。そのような特徴量を重視する処理を加えることで、音源同定精度の向上が期待できる。　ランダムノートパターンを用いた評価実験の結果、音の重なりの存在下で、特徴量の再計算により精度は約73%から約81%へ、また、音源同定処理における重み値の導入では、導入の有無によって約71%から約80%へといずれも1割程度処理精度が向上した。この結果は、特徴量の再計算と重み値の導入の有効性を示すものである。　ストリーム抽出に関する評価実験では、3つの楽器からなる曲を対象とした場合に、最大で再現率約90%、適合率約94%を得た。このことから、本論文で用いた処理によってストリームの抽出が可能であることが明らかとなった。　最後に、ストリームが抽出された場合と、各単音のみを対象とした場合で音源同定精度を比較したところ、楽器の組合せによって44%〜65%の精度が、50%〜100%へと向上した。また、実験で用いた楽器の組合せ全てにおいて精度の向上が見られた。　これらの実験結果から、自動採譜処理におけるストリーム抽出の効果と、提案したストリーム抽出および音源同定手法の有効性が明らかになった。
審査要旨		本論文は、「音楽音響信号を対象とした自動採譜処理に関する研究」と題し、9章からなる。今後重要なマルチメディア情報処理技術の一つとして、音声認識・音声合成など、人間の音声に対する研究は従来からよく行なわれているが、他の音処理、例えば音楽に対する情報処理研究は少なく、従ってその処理技術も殆んど未開拓なものが多い。本論文は、そのような音楽情報処理を検討する一環として、音楽の音響信号を対象に自動的に単音・和音のような楽譜上に現われる記号表現を抽出する手法を論じたものである。　第1章「序論」は、本研究の背景と目的、並びに本論文の構成をまとめたものである。　第2章のタイトル「聴覚的情景分析」は、人間が聴覚を通して外界の理解をすすめる心理学的認知機構のことを指すが、この分野の現在までの研究を概観し、その中でも音楽音響信号を対象とした聴覚的情景分析の現状をまとめ、その研究の意義を述べている。　第3章「自動採譜処理」は、音楽から自動的に譜面に現われる記号表現を抽出する自動採譜について、現在までの研究の概要とそれらの問題点と限界を述べたもので、従来の手法は、単音抽出処理においては雑音と単音成分の分離、調波構造を持たない音源への対応などが問題で、音源同定処理では、楽器信号の高低・音量たどによる変動や、複数音の重なりへの対処、情報統合処理では、時間的なつながりの考慮や、抽象処理レベル間の連携の欠如たどがあると指摘している。　第4章「周波数成分特徴量の適応処理」は、周波数成分の物理的特徴量を用いる場合、特に問題となる複数音が重なったときの対処策について論じたものである。すなわち、様々な特徴量を、信号が重なった場合のその特質によって、加算特徴量、優先特徴量、崩壊特徴量の3つに分類し、それぞれの分類に応じた処理を施すことで、信号の持つ情報を失わないようにする手法を提案している。　第5章「音響ストリームとその抽出」では、継続的な音のつながりを音響ストリームと呼ぶが、各時点の音を個別に弁別するのではなく、人間がおこなっているように、継続的な音のつながりを考慮することによって、失われた情報を補間することが必要であることを論じ、その実現法として、単音、1小節から数小節に相当するフレーズ、楽譜では各楽器の担当する譜面全体に相当するパートの3層構造が存在することを考慮し、音響ストリームとしてパートを抽出する手法を提案して、それによる効果を分析している。　第6章は、「音響ストリーム抽出に基づく自動採譜システム」で、前章までの考察を踏まえた自動採譜システムを提案している。これは、前処理、主処理、後処理の3つからなる。前処理は、周波数解析、周波数成分抽出、単音形成クラスタリングからなる。主処理では、まず、前処理で得られた単音情報から周波数成分特徴量を抽出し、それに適応処理を施す。次に、前処理から得られた単音情報に対して直列に実行する3つの処理、フレーズ抽出、パート抽出、音源同定に対して、その適応済み特徴量を参考として与え、音源名付きパートを出力する。後処理は、楽譜を生成する処理である。本章では、これらのシステムの詳細を述べている。　第7章は、「評価実験」で、パーソナルコンピュータに4万行のプログラムとして実現した提案システムの実装について述べるとともに、「蛍の光」の室内アンサンブル演奏を用いて、フレーズ抽出、ストリーム抽出、音源同定処理などを評価した実験結果を与えている。　第8章は「考察」で、前章の評価実験結果に考察を加えたものである。まず、ストリーム抽出の内、フレーズ抽出に関しては、3パート楽器演奏の場合、抽出適合率が96〜99%となり、十分な精度で抽出が行なわれていることから、本処理は、局所的なフレーズを再現率を重視して抽出する場合に有効であること、パート抽出に関しては、3パート楽器の場合、再現率で90%、適合率で94%の値が得られたことなどから、本手法によってストリーム構造の抽出が可能であると述べている。また、音源同定に関しては、特徴量の適応処理により同定率が70から80%へ10%向上したこと、音源同定は楽器の種類によっては比較的高い精度で可能であるが、組合せによっては、まだ悪い精度を示すものがあること、しかしそれは、テンプレートとして用意したデータに問題があり、その改良によって高い精度が期待できることなどを述べている。また、この章では、他研究との比較を行なうとともに、今後の課題をまとめている。　第9章は、「結論」である。　以上、これを要するに本論文は、音楽音響信号を対象として、合奏信号から複数パートの楽譜を抽出する手法を考察し、音の重なりに対する適応処理として、時間的な音のつながりを考慮したストリーム処理を導入することにより、抽出精度を著しく向上させたもので、情報工学上貢献する所少なくない。　よって、本論文は、博士(工学)の学位請求論文として合格と認められる。
UTokyo Repositoryリンク