学位論文要旨



No 127566
著者(漢字) 澤井,賢一
著者(英字)
著者(カナ) サワイ,ケンイチ
標題(和) 音楽の解釈に対する確率モデルを用いた数理的解析
標題(洋) Mathematical Analysis by Probabilistic Modeling for Interpreting Music
報告番号 127566
報告番号 甲27566
学位授与日 2011.09.27
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第351号
研究科 情報理工学系研究科
専攻 数理情報学専攻
論文審査委員 主査: 東京大学 教授 合原,一幸
 東京大学 教授 竹村,彰通
 東京大学 教授 駒木,文保
 東京大学 准教授 河野,崇
 東京大学 特任准教授 平田,祥人
内容要旨 要旨を表示する

現代において、音楽を理論的に理解することはさまざまな観点から重要である。まず近年は、通信技術の発達などにより、大量の情報を効率よく扱うことができるようになった。そのため、特にインターネットにおいて、文字情報以外の音楽や映像などの情報の流通も増えてきている。その際、大量の情報を適切に処理するためには対象の情報の特徴を理解することが必要であり、音楽を数理的に理解することの重要性はますます高まっている。

また音楽は、人の脳の仕組みを考察する助けにもなる。音楽のない文化はないと言われており、言語の起源を音楽であるとする説も提案されているなど、音楽は人間の生活や行動に深く根付いたものである。また、聴取や作曲、演奏などの音楽活動は、脳のさまざまな機能が複雑に組み合わさって行われる。そのため、音楽に関する人の活動や行動の仕組みを調べることは、脳の様々な基本機能を理解する上で重要である。一方で、音楽が複雑な現象であるがゆえに、観察や計測のみによって考察することは難しい。そこで、人の音楽活動を数理的にモデル化し、現象の予測などを通して理解することが不可欠と考えられる。数理モデルによって定量的に脳の仕組みを模倣することは、音楽情報処理に人の感性を導入することも可能にするため、工学的にも有用である。本論文ではこの現状を踏まえ、音楽に関して数理的なアプローチを用いて行った研究について述べる。

まず第2章では、多声音楽の楽譜に対し、楽譜を音高の文字列とみなすことで、自然言語処理で使われるn-グラムモデルを適用する。ここで、多声音楽とは同時に複数の音が演奏される音楽のことで、同時に演奏された音を和音という。これまでもn-グラムモデルを音楽に適用する手法は提案されているが、その対象楽曲は、同時に一つの音しか演奏されない単旋律の楽曲が主である。しかし、音楽は多声であることが一般的であるため、手法が単旋律楽曲に絞られるのは、応用の面から好ましくない。また、多声音楽に対する既存のn-グラムモデルは、和音に含まれる音高を別々に扱うため、和音によって表現される文脈などの情報を無視することになる。本研究では、それぞれの和音を一つの文字とみることで、多声音楽に対するn-グラムモデルを考える。その際、多声音楽では文字の種類が音高の組合せの数だけ増えることにより、重要な情報が落ちやすくなるという問題が生じる。そこで、和音の間に同値関係を定め、一つの同値類を一つの文字とみなすことで、文字の種類を減らす手法を提案する。本研究では作曲家の線形判別関数による判別テストにより、この手法が楽曲の特徴をうまく抽出できることを示している。

次に第3章では、人のリズム認知過程に対してベイズ推定を用いたモデルを提案している。ここでは特に、もっとも単純なリズムパターンとして、三つの短音で定まる隣り合った二つの時間間隔の組合せを考える。この三つの音による時間パターンに対しては、二つの時間間隔の相対的な関係により、それぞれの間隔の主観的な長さが誤って認知されることが知られている。本研究では、人がこの時間パターンを聞いたとき、三つの音に対して誤差を含んだ時刻を観測し、事前に持っている知識によってそれらの時刻を修正するために誤った認知がなされると考える。その際、隣り合う音が同一源から発せられたものかどうかを人が無意識化で判断していると仮定し、その同一源性を表す変数を導入することで、三つの音の時間パターンに対する事前知識をモデル化し、先行研究の心理実験の結果を再現している。

また第4章では、聴覚情景分析と呼ばれる重要な認知機能の観点から、第3章で提案したモデルで予測される認知現象について考察を行う。耳には常に複数の音源からの混ざり合った信号が届くが、聴覚はその信号を音源ごとに分離する能力に優れていることが知られている。この能力は聴覚情景分析と呼ばれ、聴覚認知過程を考える上で重要視されており、またこの仕組みを解明することは工学的応用にもつながる。ここでは、第3章で議論した音の同一源性と聴覚情景分析の関連について考察し、提案モデルから予測される認知現象や、提案モデルの時空間認知への拡張について検討する。

ここで得られた結果から、確率モデルは異なる次元の情報を統合することに非常に優れていることが分かる。複雑な現象である音楽を理解するに当たっては、今後もますます確率モデルが重要な役割を果たしていくだろう。

審査要旨 要旨を表示する

現代において、音楽を理論的に理解することはさまざまな観点から重要である。まず近年は、通信技術の発達などにより、大量の情報を効率よく扱うことができるようになった。そのため、特にインターネットにおいて、文字情報以外の音楽や映像などの情報の流通も増えてきている。その際、大量の情報を適切に処理するためには対象の情報の特徴を理解することが必要であり、音楽を数理的に理解することの重要性はますます高まっている。

また音楽は、人の脳の仕組みを考察する助けにもなる。音楽のない文化はないと言われており、言語の起源を音楽であるとする説も提案されているなど、音楽は人間の生活や行動に深く根付いたものである。また、聴取や作曲、演奏などの音楽活動は、脳のさまざまな機能が複雑に組み合わさって行われる。そのため、音楽に関する人の活動や行動の仕組みを調べることは、脳の様々な基本機能を理解する上で重要である。一方で、音楽が複雑な現象であるがゆえに、観察や計測のみによって考察することは難しい。そこで、人の音楽活動を数理的にモデル化し、現象の予測などを通して理解することが不可欠と考えられる。数理モデルによって定量的に脳の仕組みを記述することは、音楽情報処理に人の感性を導入することも可能にするため、工学的にも有用である。

本論文は「Mathematical Analysis by Probabilistic Modeling for Interpreting Music」(音楽の解釈に対する確率モデルを用いた数理的解析)と題し、5章からなる。

第1章「General introduction」(序論)では、音楽と数学に対するこれまでの関わりについて触れている。そして、数理的な視点で音楽を見ることの必然性と有用性について述べている。

第2章「An n-gram modeling of polyphonic music in an abstracted pitch space」(抽象化された音高空間における多声音楽のn-グラムによるモデル化)では、多声音楽の楽譜に対し、楽譜を音高の文字列とみなすことで、自然言語処理で使われるn-グラムモデルを適用する。ここで、多声音楽とは同時に複数の音が演奏される音楽のことで、同時に演奏された音を和音という。これまでもn-グラムモデルを音楽に適用する手法は提案されているが、その対象楽曲は、同時に一つの音しか演奏されない単旋律の楽曲が主である。しかし、音楽は多声であることが一般的であるため、手法が単旋律楽曲に絞られるのは、応用の面から好ましくない。また、多声音楽に対する既存のn-グラムモデルは、和音に含まれる音高を別々に扱うため、和音によって表現される文脈などの情報を無視することになる。本研究では、それぞれの和音を一つの文字とみることで、多声音楽に対するn-グラムモデルを考えている。その際、多声音楽では文字の種類が音高の組合せの数だけ増えることにより、重要な情報が落ちやすくなるという問題が生じる。そこで、和音の間に同値関係を定め、一つの同値類を一つの文字とみなすことで、文字の種類を減らす手法を提案している。本研究では作曲家の線形判別関数による判別テストにより、この手法が楽曲の特徴をうまく抽出できることを示している。

第3章「Rhythm perception model based on Bayesian inference」(ベイズ推定に基づくリズム認知モデル)では、人のリズム認知過程に対してベイズ推定を用いたモデルを提案している。ここでは特に、もっとも単純なリズムパターンとして、三つの短音で定まる隣り合った二つの時間間隔の組合せを考える。この三つの音による時間パターンに対しては、二つの時間間隔の相対的な関係により、それぞれの間隔の主観的な長さが誤って認知されることが知られている。本研究では、人がこの時間パターンを聞いたとき、三つの音に対して誤差を含んだ時刻を観測し、事前に持っている知識によってそれらの時刻を修正するために誤った認知がなされると考える。その際、時間的にあい続く音が同一源から発せられたものかどうかを人が無意識化で判断していると仮定し、その同一源性を表す変数を導入することで、三つの音の時間パターンに対する事前知識をモデル化し、先行研究の心理実験の結果を再現している。

第4章「Discussion from the viewpoint of auditory scene analysis」(聴覚情景分析の視点からの考察)では、聴覚情景分析と呼ばれる重要な認知機能の観点から、第3章で提案したモデルで予測される認知現象について考察を行っている。耳には常に複数の音源からの混ざり合った信号が届くが、聴覚はその信号を音源ごとに分離する能力に優れていることが知られている。この能力は聴覚情景分析と呼ばれ、聴覚認知過程を考える上で重要視されており、またこの仕組みを解明することは工学的応用にもつながる。ここでは、第3章で議論した音の同一源性と聴覚情景分析の関連について考察し、提案モデルから予測される認知現象や提案モデルの時空間認知への拡張について検討している。

第5章「General conclusion」(結論)では、これまでに述べた結果をまとめ、確率モデルが音楽の理解に果たす役割について触れている。

以上を要するに、本論文は、確率モデルを軸に、楽曲の新たな情報処理手法を提案し、人のリズム認知過程に関する新たな知見を得ている。これらは音楽情報処理や脳科学などに貢献するところが大きい。さらにこれらの知見は、現実の状況を念頭に置きながら数理的に問題を解決するという数理情報学の立場から得られており、音楽研究における数理情報学の有用性を示している。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク