本研究は、歌声合成システムの品質向上を目指したものである。歌声の音質向上・新しい歌手の声を学習するのに必要な手作業の軽減・学習に使えるデータの種類の増加を主眼として、より高音質で幅広い応用性を持った歌声合成システムを構築した。 合成された歌声の自然性・豊さの向上を図るため、大量データベースに基づく音声合成手法を選択した。 従来より、大量データベースに基づく音声合成手法を用いることにより、音質と自然性を向上できることが知られている。これに基づいて本研究では、大量データベースに基づく歌声合成手法による歌声合成システムの品質向上を進めた。開発された合成システムに歌声特徴の処理を加えることで、高音質歌声合成が可能となった。 話声と歌声を比較した場合、歌声には独特な特徴がある。以下に、これに対する新しい処理手法を説明する。 西洋クラシカル歌において、ビブラートは上品な歌声を担う大切な特徴の1つである。ビブラートが掛かった歌声の合成には、ビッチとスペクトラムの変動が激しいため、合成の際に声の音質の劣化が顕著である。本研究で用いた新しいビブラート合成手法により、合成されたビブラートの音質を高めることができた。 歌声のdynamic rangeは話声よりも広いため、韻律が複雑に変動する。話声の音声合成にあたって、多くのシステムでは音素の平均値が使われているが、歌声の合成には、より細かいモデリング(sub phonemeレベル)を利用することで音質が改善されることを示した。 歌声における知覚的に大切な現象として、singer’s formantというものがある。この現象は、西洋歌の歌手が学習による発声ができることを示すものである。Singer’s formantは話声に存在しないスベクトラルビークに現れる。Singer’s formantのレベルを示す特徴の合成ユニット選択での利用により、合成音質を向上できた。 本研究で使用している合成方式は、選択方式に基づく波形接続合成手法である。この方法では、ターゲットの発声(歌)に最適な("best matching")ユニットが学習データベースから選択されて合成に使われる。選択を行なう前に、選択のパラメータの推定が必要である。このパラメータは、選択に使われている特徴の比較的な重みを表すものである。選択特徴の数を増やすと特徴の重み付けが難しくなり、従来の学習方法だと計算量の面で学習が実質的に不可能になる。新しい学習方法の採用により、計算量を大幅に削減でき、効率的にパラメータの学習ができるようになった。 高音質波形接続合成のためには、音素ラベリング付きの大量データベースが必要である。音素ラベリングを手作業で行なうと非常に時間がかかり、とても実用的ではないシステムに陥ってしまうこれを避けるべく、音声認識の方法を使って自動セグメンテションを行なうこととした。従来研究から、話声の自動セグメンテションの結果を合成に使用可能であることが知られている。しかし、この方法を、歌のセグメンテーションに用いると誤差が大きくなり利用できない。そこで本研究では、楽譜のデータを利用することで誤差を減らし、自動セグメンテーションの結果を合成に使えるようにした。 本論文の目的は応用的で使いやすいシステムの開発である。特に手作業が必要ない処理方法の研究を進めている。 主なシステムの学習の方法について述べる。まず、MIDIフォーマットで再生された音楽を歌手に流して、歌手の歌を別に録音する方法がある。その上で2つの学習方法を考案した。1つは、歌手の歌が別に録音されているが、流れている音楽がMIDIフォーマットではないもの。もう1つは、歌手と音楽が一緒に録音されていて、MIDIフォーマットではないものである。 この2つの方法による学習に使えるデータを大幅に増やすことで、システムの利用の幅を拡大でき、学習が出来る歌手の声の数も簡単に増やすことができる。 1つ目の学習方法を実現するにあたり、楽譜に合わせて音楽の録音ができる時間合わせアルゴリズム(time alignment)を開発した。そして、そのアルゴリズムの結果をシステムに利用できることを示した。 2つ目の学習方法には、歌手とピアノの音の分離が必要である。そこで、新しいピアノと歌手の音の分離方法を開発した。この方法では、ピアノ音のharmonic partはsemi parametric方式でモデリングされる。モデルの自動学習方法と自動パラメータの推定方法を開発し、実験によってその効果を確めた。その結果、分離能力の向上とともに、分離された歌手の声の音質への悪影響の軽減を確認した。 本論文で説明する方法はパソコンに実装した上で、実際の学習と歌合成の実験を行なった。その結果、完全自動学習・合成が可能であることが示され、さらに聴覚実験の結果から、合成された歌の自然性と歌声の豊かさを向上できたことが示された。 |