学位論文要旨



No 213060
著者(漢字) 北原,義典
著者(英字)
著者(カナ) キタハラ,ヨシノリ
標題(和) 音声における韻律の役割とその応用に関する研究
標題(洋)
報告番号 213060
報告番号 乙13060
学位授与日 1996.11.14
学位種別 論文博士
学位種類 博士(工学)
学位記番号 第13060号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 岡部,洋一
 東京大学 教授 原島,博
 東京大学 教授 石塚,満
 東京大学 助教授 金子,正秀
 東京大学 助教授 相澤,清晴
内容要旨

 本格的なマルチメディア時代の到来とともに、パソコンや携帯情報端末をはじめとするマルチメディア情報機器は、低価格化が進み、一般への普及速度が増してきた。これらの機器やシステムのさらなる普及を加速するための大きなポイントはユーザインタフェースであると言っても過言ではない。とくに、自然性や対話性を重視するインタフェースでは、一般のユーザにとって訓練を必要としない音声の役割が重要となる。元来、音声は、文字とは性質を異にする顕現様式であり、とりわけ、そのもつ韻律的特徴をはじめとする非言語情報が、われわれのコミュニケーション行動に大きな役割を果たしている。

 音声言語は、個々の音韻形成に関する「音韻性」、超分節的な律動に関する「韻律性」の2つの特性をもつ。また、音声そのものの質は「声質」と呼ばれる。いわば声の音色である。「韻律性」は、音声伝達において「音韻性」とは異なった側面から重要な役割を担う。「韻律性」は韻律情報から形成されるが、この韻律情報は、「振幅構造」、「ピッチ構造」、[時間構造」の3要素に分けることができる。これらの成分が複合的に絡み合い、音声言語の統語的分割、重要語検出、感情表現等に寄与している。

 本論文では、この「韻律情報」に焦点を当て、音声メディアにおいて韻律が果たす役割を明らかにし、そのマルチメディアへの応用について議論する。まず、韻律が音声中の単語認知機能にどのように関わっているかを、音韻性を除去し韻律をコントロールした音源音声を用いて検討する。ここでは、ポーズが言語音声のセグメンテーションに重要な役割を果たすことや、各音韻の継続時間長が語検出に大きく寄与していることを明らかにする。次に、文音声認知における韻律の役割を、合成音を用いた聴取実験を通じて検討する。ここでは、人間のアテンションが集中しない状況下における音声聴取場面では、ピッチ情報が効果的に働き、言語理解を容易にすることを定量的に確認する。

 続いて、感情表現に関与する韻律の成分およびその構造について、音声分析合成系を用いて検討する。ここでは、平静音声の韻律成分を感情音声の韻律成分で置換した分析合成音を用いた聴取実験を通じて、「怒り」の表現にとっては時間構造、「歓喜」および「悲哀」の表現にはピッチ構造が各々重要であることを明らかにする。さらに、感情の強度に関与する韻律成分について検討する。また、得られた知見より韻律制御ルールを構成し、平静音声に対する感情付与を行ない、評価実験により、その効果を確認する。

 最後に、韻律特性のマルチメディア応用として、コンテンツ製作ツールへの適用について論ずる。ここでは、マルチメディアプレゼンテーションにおいて、ユーザが苦手とするナレーション付与をはじめとした感性演出の支援方式を提案する。ナレーション付与は、韻律を制御することによって、ユーザの発声した音声をクリアな音声や表情に富んだ音声に声質加工し、さらに制限時間に適合するように時間伸縮を行なうことによって実現する。プレゼンテーションにおいてもっともよく使用されると思われる「クリアな」という感性表現語について、本方式によって加工された音声の聴取評価実験を行なった結果、感性表現に対する適合性が確認された。

審査要旨

 本論文は「音声における韻律の役割とその応用に関する研究」と題し、音声コミュニケーションにおける韻律情報の役割に焦点を当て、主として知覚実験によりその定量的な解明を行うとともに、その結果を基に感性情報の観点から韻律の制御方策を開発し、マルチメディアへの具体的な応用について述べたものであって、全7章からなる。

 第1章は「序論」であって、本論文の背景と目的を述べている。まず、ピッチ情報、パワー情報、時間構造等から構成される音声の韻律情報が、音声のいわゆる音韻性、声質の表現に主要な役割を果たすことを指摘し、韻律の研究の重要性に言及している。その上で、本論文の目的が、音声コミュニケーションにおいて韻律が果たす役割を、体系的・定量的に解明し、その成果を具体的なマルチメディアインターフェイスに応用することにあるとしている。次に、本論文の各章の位置付けを述べている。

 第2章は「韻律に関する研究と本研究の位置付け」と題して、まず、音声には音韻性と韻律性の2つの側面があり、韻律性の伝達に重要な音声のピッチ情報、パワー情報、時間構造のそれぞれについて、その定義と抽出方法を簡単にまとめている。その上で、本論文が音声の韻律を取り扱ったものであり、合成音声を用いた聴取実験による韻律の音声コミュニケーションにおける役割の解明と、感性を表現する韻律の制御ルールの開発とそれを利用したマルチメディアコンテンツ制作ツールの構築を主な内容とすることを明記している。次に、音声の韻律に関する現在まで研究の全容を示し、その中での本論文の位置付けを述べている。

 第3章は「単語認知における韻律の役割」と題して、単語検出における韻律の役割を知覚実験によって調べている。まず、天気概況文音声に対し、分析合成手法によりスペクトル包絡情報(音韻性)を除去した音源音声を合成し、それを用いて単語検出実験を行い、その結果として、韻律の中に単語の特徴が保存されていることを示している。次に、韻律を種々に加工した合成音声で同様の知覚実験を行い、ポーズが単語検出に重要な役割を果たすこと、ピッチ構造、音韻継続長、有声・無声パターンも単語検出の知覚的キューとなっていること、従ってこれらが韻律的な文脈を形成していることを明らかにしている。

 第4章は「文認知における韻律の役割」と題して、韻律が文の理解に果たす役割を分析合成音声、規則合成音声を用いた知覚実験により調べている。その結果、作業環境下では、抑揚、ポーズが文理解において一定の役割を果たすこと、規則合成音声では誤ったアクセントの付与によりそれ以降の文理解が阻害されること、文節了解度に対する役割はフレーズ成分よりもアクセント成分で大きいこと、誤音節を含む音声の音節復元率は韻律によって向上し、その程度は文節単位で見た誤り率が30%以上の場合に顕著であること、等を示している。

 第5章は「韻律と感情表現」と題して、音声の感情表現と韻律との関係を知覚実験により調べている。まず、実験に用いる(分析合成)音声が適正に感情を伴っていることを確認した上で、音源音声の聴取実験により、感情表現に関する情報の主要部分を韻律が担っていることを示している。次に、平静音声の韻律を感情音声のそれと置換した合成音声の聴取実験を行い、怒りの表現には時間構造が、歓喜および悲哀の表現にはピッチ構造が重要であることを示している。実験結果に基づいて感情表現の韻律制御規則を構築し、実際に感情音声を合成して聴取したところ、悲哀で100%、怒りで82%、歓喜で55%の識別率が得られたとしている。

 第6章は「韻律制御のマルチメディア感性演出支援への応用」と題して、韻律制御のマルチメディアへの応用を取り上げている。具体的には、マルチメディアプレゼンテーションにおいて、素人のユーザが不得意とする、着色/配色、レイアウト、ナレーション付与、BGM付与の感性演出を支援する方式を提案した中で、音声の韻律を制御することによって、ユーザの音声をクリアな音声、あるいはユーザの希望する特徴(表情)を持った音声に、短時間で変換してナレーションとする手法を開発している。韻律制御を波形上の処理で達成することにより音質の劣化に対処し、実際、聴取評価実験の結果、この様にして韻律制御した音声の明瞭性が向上することを示している。

 第7章は「結論」であって、本研究で得られた成果を要約し、将来の課題について言及している。

 以上を要するに、本論文は、音声言語の韻律的特徴に着目し、それが情報伝達において果たす役割を、人間の知覚の面から明らかにするとともに、主として感性情報の観点から韻律制御方法を開発し、具体的なマルチメディアシステムへの応用について議論し、その方向を示したものであって、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク