学位論文要旨



No 114756
著者(漢字) メロン,ヨラム
著者(英字) Meron,Yoram
著者(カナ) メロン,ヨラム
標題(和) 選択合成手法による高品質歌声合成
標題(洋) High Quality Singing Synthesis using the Selection-based Synthesis Scheme
報告番号 114756
報告番号 甲14756
学位授与日 1999.09.30
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4526号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 田中,英彦
 東京大学 教授 青山,友紀
 東京大学 教授 原島,博
 東京大学 助教授 相澤,清晴
 東京大学 助教授 森川,博之
内容要旨

 本研究は、歌声合成システムの品質向上を目指したものである。歌声の音質向上・新しい歌手の声を学習するのに必要な手作業の軽減・学習に使えるデータの種類の増加を主眼として、より高音質で幅広い応用性を持った歌声合成システムを構築した。

 合成された歌声の自然性・豊さの向上を図るため、大量データベースに基づく音声合成手法を選択した。

 従来より、大量データベースに基づく音声合成手法を用いることにより、音質と自然性を向上できることが知られている。これに基づいて本研究では、大量データベースに基づく歌声合成手法による歌声合成システムの品質向上を進めた。開発された合成システムに歌声特徴の処理を加えることで、高音質歌声合成が可能となった。

 話声と歌声を比較した場合、歌声には独特な特徴がある。以下に、これに対する新しい処理手法を説明する。

 西洋クラシカル歌において、ビブラートは上品な歌声を担う大切な特徴の1つである。ビブラートが掛かった歌声の合成には、ビッチとスペクトラムの変動が激しいため、合成の際に声の音質の劣化が顕著である。本研究で用いた新しいビブラート合成手法により、合成されたビブラートの音質を高めることができた。

 歌声のdynamic rangeは話声よりも広いため、韻律が複雑に変動する。話声の音声合成にあたって、多くのシステムでは音素の平均値が使われているが、歌声の合成には、より細かいモデリング(sub phonemeレベル)を利用することで音質が改善されることを示した。

 歌声における知覚的に大切な現象として、singer’s formantというものがある。この現象は、西洋歌の歌手が学習による発声ができることを示すものである。Singer’s formantは話声に存在しないスベクトラルビークに現れる。Singer’s formantのレベルを示す特徴の合成ユニット選択での利用により、合成音質を向上できた。

 本研究で使用している合成方式は、選択方式に基づく波形接続合成手法である。この方法では、ターゲットの発声(歌)に最適な("best matching")ユニットが学習データベースから選択されて合成に使われる。選択を行なう前に、選択のパラメータの推定が必要である。このパラメータは、選択に使われている特徴の比較的な重みを表すものである。選択特徴の数を増やすと特徴の重み付けが難しくなり、従来の学習方法だと計算量の面で学習が実質的に不可能になる。新しい学習方法の採用により、計算量を大幅に削減でき、効率的にパラメータの学習ができるようになった。

 高音質波形接続合成のためには、音素ラベリング付きの大量データベースが必要である。音素ラベリングを手作業で行なうと非常に時間がかかり、とても実用的ではないシステムに陥ってしまうこれを避けるべく、音声認識の方法を使って自動セグメンテションを行なうこととした。従来研究から、話声の自動セグメンテションの結果を合成に使用可能であることが知られている。しかし、この方法を、歌のセグメンテーションに用いると誤差が大きくなり利用できない。そこで本研究では、楽譜のデータを利用することで誤差を減らし、自動セグメンテーションの結果を合成に使えるようにした。

 本論文の目的は応用的で使いやすいシステムの開発である。特に手作業が必要ない処理方法の研究を進めている。

 主なシステムの学習の方法について述べる。まず、MIDIフォーマットで再生された音楽を歌手に流して、歌手の歌を別に録音する方法がある。その上で2つの学習方法を考案した。1つは、歌手の歌が別に録音されているが、流れている音楽がMIDIフォーマットではないもの。もう1つは、歌手と音楽が一緒に録音されていて、MIDIフォーマットではないものである。

 この2つの方法による学習に使えるデータを大幅に増やすことで、システムの利用の幅を拡大でき、学習が出来る歌手の声の数も簡単に増やすことができる。

 1つ目の学習方法を実現するにあたり、楽譜に合わせて音楽の録音ができる時間合わせアルゴリズム(time alignment)を開発した。そして、そのアルゴリズムの結果をシステムに利用できることを示した。

 2つ目の学習方法には、歌手とピアノの音の分離が必要である。そこで、新しいピアノと歌手の音の分離方法を開発した。この方法では、ピアノ音のharmonic partはsemi parametric方式でモデリングされる。モデルの自動学習方法と自動パラメータの推定方法を開発し、実験によってその効果を確めた。その結果、分離能力の向上とともに、分離された歌手の声の音質への悪影響の軽減を確認した。

 本論文で説明する方法はパソコンに実装した上で、実際の学習と歌合成の実験を行なった。その結果、完全自動学習・合成が可能であることが示され、さらに聴覚実験の結果から、合成された歌の自然性と歌声の豊かさを向上できたことが示された。

審査要旨

 本論文は「High Quality Singing Synthesis Using the Selection-based Synthesis Scheme」と題し、波形選択合成技術を利用した高品質歌声合成手法の開発を主テーマとし、器楽音とともに録音された歌声の高精度分離手法をも対象としたものであって、全9章からなり、英語で記述されている。

 第1章は「Introduction」であって、本論文の背景と目的を述べている。まず、歌声の音響的特徴について概説した後、他所における歌声合成システムを紹介し、その問題点を指摘している。その上で、本研究の目標をピアノ音が重畳した演奏から歌声を取り出して波形データベースとし、波形選択合成の技術によって新しい歌声を合成するシステムを構築することであるとしている。さらに、本論文の各章の位置付けを述べている。

 第2章は「Input and Preprocessing」と題して、まず、本論文でのピアノ音としてMIDI(Musical Instrument Data Interface)表記されたものを対象とするとし、その上で、波形処理上重要なピッチ抽出について議論している。特に歌声のピッチ抽出が問題であるとし、単なる自己相関処理によっては高精度の抽出が期待できないことを指摘し、音符と歌声との時間対応を取った上で、音符情報を利用する新しい手法を開発している。

 第3章は「Automatic Segmentation」と題して、歌声を音素毎に自動的に切り分け、音素ラベル付けする技術について述べている。これは、前後の音素環境を考慮した隠れマルコフモデルを各音素について構築し、ビタビ手法等により入力とのアライメントを行うものであって、基本的には音声の場合に開発された手法であるが、歌声の場合、音符の情報も利用する。完全な自動化が困難であることを指摘し、グラフィックスを利用した修正プログラムを開発している。切り分けた音素波形をデータベースとして波形編集合成が行われるが、その際、どの程度の量のデータを用意する必要があるかを、合成品質の面から解析している。

 第4章は「Voice Synthesis」と題して、波形選択合成の具体的な手法について述べている。選択合成の際、波形のピッチを合成環境に一致する様に修正することが必要であるが、この方法として、従来の時間領域における波形処理(TD-PSOLA)の問題点を指摘し、周波数領域における処理として正弦波モデルによる手法を提案している。正弦波モデルは、波形のスペクトルに現れた顕著な成分に対応する正弦波の総和として波形を表現するものであるが、従来は位相関係の取り扱い等に問題があり、音質の劣化が避けられなかった。これに対し、位相関係を保存する新しい手法を開発し、高品質の合成音を得ている。

 第5章は「Unit Selection」と題して、合成の際に波形データベースからどの様に最適の音素波形を選択するかについて述べている。一般に波形選択合成では、1つの音素に多数の波形データが対応しており、ある評価基準に従って、最適のものを自動的に選択することが求められる。この様な手法として、従来から、合成音声に対するターゲットを用意し、ピッチ、パワーを含む音響パラメータ空間での距離を最小にする選択アルゴリズムを学習によってあらかじめ得て、それを用いて実際の合成時に波形選択を行うことが提案されている。この方法の問題点として、学習に時間がかかり、結果的に学習の範囲を制約することから音質劣化に結びつくとの指摘がなされていたのに対し、効率的な学習方法を開発して、2桁以上の時間短縮を達成している。特に、歌声では音素に対する波形データのバラエティーに富んでおり、開発した学習手法が有効となる。

 第6章は「Improving Synthesis Quality」と題して、まず、ビブラートに代表される歌声に特有な特徴を合成音で再現することが品質の向上に重要であることを指摘した上で、通常の波形選択合成では、ビブラートが再現されないとしている。その上で、ピッチ、スペクトルを加工してビブラートを再現する手法を提案している。また、Singing Formantについても言及し、その実現により、合成品質が向上することを具体的に示している。

 第7章は「Separation of Singing and Piano Sounds」と題して、器楽音とともに録音された歌声を高精度に分離する手法について述べている。ピッチ、スペクトル情報を利用する従来の手法では高精度分離が不可能なことを示した上で、音符情報を利用する必要性を指摘している。また、器楽音のモデルを導入することにより、従来困難であった過渡部分での分離性能が格段に向上するとしている。器楽音としてピアノ音を想定し、実験を行って大幅な分離性能の向上を達成している。

 第8章は「Music Score Alignment」と題して、歌声、器楽音の時間軸上でのアライメントについて述べている。特に歌声は人間の声帯制御によるものであって、変動が多いことを指摘した上で、動的計画法により音符との整合をとる手法を開発している。MIDIにジッターがある場合にも良好な結果を得ている。

 第9章は「Conclusions and Future Work」であって、本研究で得られた成果を要約し、将来の課題について言及している。特に、MIDI情報の得られない場合についての処理の必要性を指摘している。

 以上を要するに、本論文は、波形データベース自動作成、波形選択重み自動学習、ビブラート付与、歌声分離などにおいて、従来になく高性能、高品質の技術を開発し、それによって波形選択合成にもとづく歌声の高品質合成手法を新しく構成したものであって、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク