学位論文要旨



No 129607
著者(漢字) 深山,覚
著者(英字)
著者(カナ) フカヤマ,サトル
標題(和) 確率的定式化による日本語歌詞からの自動作曲の研究
標題(洋) Automatic Music Composition from Japanese Lyrics with Probabilistic Formulation
報告番号 129607
報告番号 甲29607
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第429号
研究科 情報理工学系研究科
専攻 システム情報学専攻
論文審査委員 主査: 東京大学 教授 嵯峨山,茂樹
 東京大学 教授 竹村,彰通
 東京大学 教授 中村,宏
 東京大学 教授 峯松,信明
 国立情報学研究所 准教授 小野,順貴
 東京大学 客員准教授 亀岡,弘和
内容要旨 要旨を表示する

This thesis contains discussions on the methods of automatic music composition, especially generating songs from Japanese lyrics. Songs are familiar genre of music and they are the media which we can communicate our messages emotionally with. Our aim is to achieve methods that can assist people to generate songs with automatic composition techniques. We will discuss that the difficulty of automatic song composition lies on both achieving the variety and the quality. We argue that the problem divided into three parts, (1) achieving variety, (2) generating with quality and (3) system designs for automatic composition. For problem (1), we discuss that songs can be decomposed into musical components such as melody, harmony and rhythm, and the variation emerges with the combinations of these musical components. The preliminary subjective evaluation indicated that varying the combination can help increasing the variety in songs. Secondly, we discuss the dependencies between these components and derive our method of generating variety with composition of various combinations of decomposed musical components. Finally, methods for achieving variety in each musical components is described, with ideas of "rhythm tree" and automatic generation of voicings with arbitrary input of harmony sequences by means of Hidden Markov Model. For problem (2), we firstly discuss the generating melody with quality is to minimize the probability of feeling odd about the song, thus the melody composition can be formalized as maximizing the probability given the constraints. Although there are two possibilities of obtaining the probabilities, we argue that setting probabilities regarding musical theories is the solution since there are few data which are consistent enough for training the model. Secondly, we will argue how we can create a melody with maximum probability, with the constraints given by the combinations of musical components. Since the constraints imposed on melodies are mainly local constraints, we can derive a method to generate melodies exploiting dynamic programming. The subjective evaluation of generated melodies in five-grade evaluations are also reported, which indicates that the method can create melodies following musical theory (average points: 3.64) and with certain musicality (average points: 3.52). Finally for problem (3), system designs for automatic composition systems are discussed. The operation results of these systems provide evidences that our methods can be exploited to create original songs easily.

審査要旨 要旨を表示する

本学位請求論文は、日本語歌詞の入力から歌唱曲の自動作曲を実現する方法を議論しており、``Automatic Music Composition from Japanese Lyrics with Probabilistic Formulation'' (邦題:確率的定式化による日本語歌詞からの自動作曲の研究)とのタイトルで、英語で論述されている。

第1章では、歌唱曲は一般に馴染み深い音楽ジャンルであり、また歌詞と曲想を通じて感情豊かにメッセージを伝えられる魅力的なメディアである一方、その作曲には専門技能が必要であることを述べている。また日本語の歌詞を入力として歌唱曲を誰でも手軽に作曲できる技術は、誰もが作品制作しインターネットを通じて全世界にメッセージを発信できる今、人々の手軽な創作を支援する重要な技術であることを述べている。

第2章では、このような背景と需要のもとでの歌唱曲自動作曲の本質的な難しさが、多様な自動作曲結果を得ることと、高い質の楽曲を生成することの両立にあることを議論している。実際、自動生成旋律を過剰に多様にすると生成楽曲の質が担保されにくく、質を担保するあまり常に似た楽曲が生成されるようでは多様な楽曲が生成できないことが論じられている。従来の、前衛的な作品を創作するためにアルゴリズム(芸術目的自動作曲)を探求する自動作曲研究ではこの問題が十分検討されていない。また、既存の音楽スタイルを模倣する目的の自動作曲研究(工学目的自動作曲)においても、この両立をどのように実現するかが依然問題であった。結果として (1) 多様な歌唱曲自動作曲、(2) 高い質の歌唱曲自動作曲、(3) 歌唱曲自動作曲システムの設計、の3つの技術的課題が克服する必要があるとまとめている。これらが引き続き、第3章にて課題(1)、第4章にて課題(2)、第5章にて課題(3)が扱われている。

第3章では、多様な歌唱曲を自動作曲するための方法が議論される。はじめに歌唱曲が旋律・和声・リズム・伴奏などの音楽要素に分解して解釈できることと、これら音楽要素の組合せにより曲想が変化することの観察を述べている。予備実験として、異なる音楽要素の組合せによる曲印象の主観評価実験を行い、楽曲が多様な印象を与えうることを確認している。次に、これら音楽要素同士の設定が独立に行えるかを検討している。実際の作曲時のプロセスを踏まえ、旋律が他の音楽要素との関係を勘案しながら設計する必要があるのに対して、和声進行・リズム・伴奏音型・ドラムスなどの要素は比較的お互い自由に組合せられることを論じている。これらから、この章の重要な帰結として、旋律以外の音楽要素の組合せによって多様な楽曲を生成する方法が導出された。このとき、組合せの種類が多いほど多様性を増すことができるため、音楽要素それぞれについても多様に準備しておく必要がある。したがって例えば、リズムについては、実際の楽曲中のリズムが音価を分割・統合する形のリズム木構造をなしているという考察をもとに、リズム木構造の種類を多く準備することで、リズムの多様性を与える方法が提案されている。和声進行については、任意の和声進行を用いた場合でも、実際に楽曲で使われる音を自動で決定(ヴォイシング)できるよう、隠れマルコフモデルによる定式化と解法が論じられている。

第4章では、高い質の歌唱曲を自動作曲するための方法が議論されている。はじめに、高い質の歌唱曲作曲は、人々が曲を音楽的に妥当であると判断する確率を最大化することであることを論じている。このような確率はデータから学習する方法と、過去の楽曲から帰納的に作られた体系である音楽理論に基づいて手法で設定する方法があるが、均質な楽曲の学習データを得るのが難しく、現状では手動の確率設定が望ましいと結論づけている。次に、前章で議論された音楽要素分解再構成の基づく旋律に課される制約条件のもと、歌詞の韻律と音楽理論に基づく確率によって、いかに確率最大の旋律を求めるかが論じられている。歌詞の韻律と音楽理論の多くの制約が局所的な制約であることから、旋律の自動作曲は、旋律を構成する各音への局所的な制約下で、確率最大の旋律を求める変分法的な問題に帰着された。音高経路が離散的な本問題の場合、これは動的計画法に基づく経路探索によって解けることが示された。自動作曲結果は、専門家2人によって評価され、「音楽理論に則しているか」「音楽性があるか」という評価項目について、5段階評価(得点:1-5)の平均点がそれぞれ3.64点、3.52点という評価を得て、音楽理論からの逸脱の少ない旋律の生成が検証された。また専門家2人の評価に高い相関がみられ、評価の妥当性も確認された。

第5章では、第3章と第4章の結論をもとに、実際に日本語歌詞を入力とする歌唱曲自動作曲システムの設計法が論じられている。Orpheus Ver. 2, Orpheus Ver. 3, Orpheus BBという3つのシステムにおいて、それぞれ、既存楽曲の音楽要素の組合せによる自動作曲、各音楽要素の詳細設定による多様な楽曲生成、自動和声付けエンジンとの統合による繰り返し編集による意図反映を行えるシステム、の設計が議論された。特にOrpheus Ver. 3における約1年の運用中の16081人のユーザ(同一IP除外)による自動作曲の利用履歴を通じて、作曲システムがユーザの作曲を支援していることを確認している。

本論文の大きな成果は、人間の創造性に依るところが多いと思われて来た作曲という行為に数理的なモデルを与え、一般ユーザに支持される高い質で多様な曲を生成できる手法を確率を用いた数理的な定式化を通して実現し、その効果と実用性を専門家による評価と、webアプリケーションによる大規模実験を通じて検証したことである。本論文の自動作曲手法に基づいて年間12万曲以上が作曲され、作曲結果へのアクセス数は半年間に180万件を超えている。本研究は、難度の高い人工知能的課題を実際的に解く一歩をなした点でも、その価値は大きい。

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク