学位論文要旨



No 126809
著者(漢字) 齋藤,大輔
著者(英字)
著者(カナ) サイトウ,ダイスケ
標題(和) 音声合成のための音声情報の分離・統合に関する研究
標題(洋) A Study on Separation and Integration of Speech Information for Speech Synthesis
報告番号 126809
報告番号 甲26809
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7450号
研究科 工学系研究科
専攻 電気系工学専攻
論文審査委員 主査: 東京大学 准教授 峯松,信明
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 伊庭,斉志
 東京大学 准教授 杉本,雅則
 東京大学 准教授 苗村,健
 東京大学 准教授 小川,剛史
内容要旨 要旨を表示する

For output of information, speaking is one of the most important and fundamental abilities of human beings. On the other hand, synthesizing of voices is a sound modality for computers. That is to say, speech synthesis can be and should be considered as an artificial process of speech generation of human beings. Nowadays, most of the speech synthesizers are text-tospeech (TTS) converters, which take a phoneme sequence as input and generate speech sounds corresponding to the sequence. To build a synthesizer, symbol-to-sound mapping is learned from a speech corpus. If a speech corpus of speaker A is used, the synthesizer learns A's voices and can read text out for him/her. A very good synthesizer may be able to deceive speaker verification systems. With the preparation of large amounts of speech corpora and the development of statistical learning theories and approaches, the quality of synthesized speech samples produced by these speech synthesizers is improving.

Let us think about the case of humans' learning of speech. Developmental psychology tells that infants acquire spoken language through imitating the utterances from their parents, called vocal imitation. However, they never imitate the voices of their parents. It is impossible for infants to create their parents' voices due to a difference in the shape of vocal tubes. To enable the vocal imitation in this situation, some abstract representation of utterances should exist between infants and their parents. One may claim that they communicate orally via phonemic representation as similar to the framework of TTS, but researchers of infant study deny this claim. This is because their phonemic awareness is very immature and it is difficult for them to decompose an utterance into sequence of phonemes. Hence phonemic representation is not necessarily required to abstract representation of utterances. What makes the vocal imitation possible?

For media information processing, implementation of media processing of human beings, which is very robust and flexible is one of the most essential problems. From this viewpoint, media information processing should deal with vocal imitation of infants correctly. For this purpose, some abstract representation of utterances which infants imitate in the case of vocal imitation should be defined physically and acoustically. Researchers answer that infants extract the holistic sound pattern from word utterances, called word Gestalt and they reproduce it with their short vocal tubes. Here, we can say that the Gestalt has to be speaker-invariant because, whoever speaks a specific word to infants using different voices, it seems that infants always extract the same Gestalt.

Recently, a candidate answer for the word Gestalt is showed mathematically and the validity of the answer was verified experimentally. The proposed method of extracting the Gestalt from an input utterance was used successfully for Automatic Speech Recognition (ASR), and Computer Aided Language Learning (CALL). This study is trying to implement speech synthesis framework based on this implementation of the word Gestalt.

The objective of this study is to realize the framework of speech information processing, which is robust and flexible as human speech processing. For this purpose, this study is trying to implement the similar process to the vocal imitation of infants based on the implementation of the word Gestalt mentioned above. From the viewpoint of the treatment of information in speech, this process includes two operations; to separate speech information into linguistic and speaker information, and to integrate them into produced speech again. In order to realize the former operation, we focus on representation for the difference of speakers and that for speaker-invariant linguistic information. In this study, the difference of speakers is represented as geometrical properties of a feature space. Speaker-invariant linguistic information is represented as acoustic word Gestalt mentioned above. For more flexible operation, a smaller acoustic unit based on word Gestalt is proposed. For the latter operation, we propose two frameworks of conversion to speech; structure to speech conversion and modelintegration-based voice conversion. Structure to speech conversion can be regarded as an implementation of the vocal imitation of infants inspired by the viewpoint of developmental psychology. Model-integration-based voice conversion is a preliminary approach to integrate linguistic and speaker information by a probabilistic manner.

Compared with our proposed framework, modeling of speech by the conventional speech synthesizers can be regarded as "simultaneous" modeling of linguistic and speaker information. On the other hand, recognition processes in speech applications model focused and unfocused information "separately." Then synthesis and recognition processes of computers do not share the models of each other perfectly. Then synthesis and recognition processes of computers do not share the models of each other perfectly. However, speech processing of human is called a "speech chain", which integrates both the perception and production processes flexibly. From this viewpoint, this study can be regarded as an optimization of the whole process of speech

審査要旨 要旨を表示する

本論文は「A Study on Separation and Integration of Speech In formation for Speech Synthesis(音声合成のための音声情報の分離・統合に関する研究)」と題し,全8章から成る。現在主流の音声合成方式は,テキストを入力し,それを音声へと変換する,言わば,文字(音韻)から音へのメディア変換技術として実装されることが多い。しかしこれは,幼児の言語獲得プロセスとは大きく異なる。読み上げる形で発話方式を学ぶ幼児はいない。音韻の意識が希薄な状態で,幼児は親と音声コミュニケーションをとるようになる。幼児は何を声に変換しているのか?本論文はこのような視点に立ち,発達心理学的に妥当な形で,音声生成能力の計算機実装を試みている。この目的のために,音声から言語的な(語彙)情報と非言語的な(話者)情報を分離し,それを再統合する形で音声を合成する枠組みを二種類提案し,その有効性について検証している。

第一章は序章であり,本研究の背景と目的,更には本論文の構成について述べている。

第二章ではまず,人間における音声生成プロセス,音声から抽出される音響的特徴,及び,その特徴量を用いた音声のモデリング技術(隠れマルコフモデル)について説明している。その後,現在研究されている音声合成方式を,人の調音器官を機械的に模擬し,入力テキストに対して調音器官ロボットを動作させる合成方式,信号処理に基づいて入力テキストから音響的に音声波形を生成する合成方式に分けて説明している。最後に,これら従来の方式と本研究の目指す方式との違いについて述べている。本研究では,音声に含まれる言語情報と非言語情報とを分離し,それを再統合する形で音声合成を試みる。

第三章では,声道の長さの差異(体格の差異)による音声変形に対して,数理モデルを提案している。幼児は親の音声を真似るが,声帯模写をする訳ではない。逆に言えば幼児は,話者の違い(声道長の違い)による音声変形に対して,鈍感な音声模倣を行っている。本章では,言語模倣過程に影響を及ぼさない(模倣対象音声の)音響的変形に対する数理モデリングを行っている。ケプストラム空間でこの問題を捉えると,声道の伸び縮みは,発声軌跡の幾何学的な回転として近似できる。より具体的には,声道長変換でしばしば使われる変換行列がn次元の回転行列に近似できることを示している。

第四章では,前章での議論に基づき,話者の違い,マイクの違いなどの非言語的要因に凡そ不変な音声表象である音声の構造的表象について説明している。この表象そのものは先行研究で提案されているが,第三章の議論は,この表象の不変性に対する幾何学的説明を与えている。

第五章では,構造的な音声特徴に基づいた頑健な孤立単語認識を検討している。ここでは,新出単語(発声)の登録を構造的に行う手法を提案している。これは幼児の言語獲得で言えば,既に持ち合わせている話者不変なコントラスト特徴量を組み合わせることで,新出単語に相当する話者不変表象を導出する過程の実装となる。音声認識実験により,その有効性を検証している。

第六章は,第一の「音声から言語的な情報と非言語的な情報を分離し,それを再度統合する形で音声を合成する枠組み」を提案し,その有効性を聴取実験により検証している。より具体的には,話者不変表象である音声の構造的表象に対して,話者の身体特性(体格や声道長の情報)を与えることで,具体的な声としての言葉を生成する枠組みについて検討している。ここでは,初期条件として幾つかの実音が与えられたと仮定し,そこから構造的表象を制約条件として,それを満たす音を音響空間から次々と探索する方式を提案した。また,その精度向上,最適化アルゴリズムを提案している。聴取実験を通してその有効性についても検証している。

第七章では,第二の枠組みを提案している。音声の話者性を変換させる声質変換技術に着眼し,この技術をベイズの定理を用いることで,声質変換というタスクを.「発話内容を保つための項」と「話者性を変える項」とに分離させて捉える。そして,両者の乗算として声質変換タスクを解釈し直し,これに基づいた声質変換を実装している。その結果,変換に必要なパラレルデータの量を抑えても十分な変換精度が得られることを実験的に示した。

第八章では,上記の理論的検討,実験的検討についてまとめている。また今後の課題についても言及している。

以上要するに本論文は,幼児の言語獲得プロセスへの着眼から,音声を言語(語彙)情報と非言語(話者)情報へと分離,再統合する枠組みを提唱し,これを実装するための手法を,二種類提案している。また,聴取実験を通してその有効性についても検証しており,情報工学に貢献するところが少なくない。よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク