学位論文要旨



No 127932
著者(漢字) 國越,晶
著者(英字)
著者(カナ) クニコシ,アキ
標題(和) 音響空間からジェスチャ空間への写像に基づくリアルタイム音声生成系におけるジェスチャ設計
標題(洋) Gesture Design for a Real-time Gesture-to-Speech Conversion System Based on Space Mapping Between a Gesture Space and an Acoustic Space
報告番号 127932
報告番号 甲27932
学位授与日 2012.03.22
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7700号
研究科 工学系研究科
専攻 電気系工学専攻
論文審査委員 主査: 東京大学 准教授 峯松,信明
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 相田,仁
 東京大学 准教授 杉本,雅則
 東京大学 准教授 苗村,健
 東京大学 准教授 小川,剛史
内容要旨 要旨を表示する

These days, most speech synthesizers such as TTS (Text to Speech) converters require symbol inputs. The quality of synthesized speech sample produced by the speech synthesizers is improving. However, this approach still has some drawbacks, for example, in emotional speech synthesis or in expressive pitch control. On the other hand, synthesis methods which do not require symbol inputs, such as articulatory synthesis, are effective for continuous speech synthesis and pitch control based on dynamic body motion. Therefore these alternatives also attract research interest and several applications have been proposed.

A dysarthric engineer, Ken-ichiro Yabu, developed a unique speech generator that relied on a pen tablet. The F1-F2 plane is embedded in the tablet. The pen position controls the F1 and F2 of vowel sounds and the pen pressure controls their energy. Another example of speech generation from body motions is Glove Talk proposed by Sidney Fels. With two data gloves and some additional devices equipped to the user, body motions are transformed into parameters for a formant speech synthesizer. In this study, we consider the process of speech production as media conversion from body motions to sound motions.

Recently, GMM-based speaker conversion techniques have been intensively studied, where the voice spaces of two speakers are mapped to each other and the mapping function is estimated based on a GMM. This technique was directly and successfully applied to estimate a mapping function between a space of tongue gestures and other speech sounds. This result naturally makes us expect that a mapping function between hand gestures and speech can be estimated well. People usually use tongue gesture transitions to generate a speech stream. But previous works showed that tongue gestures, which are inherently mapped to speech sounds, are not always required to speak. What is needed is a voluntarily movable part of the body whose gestures can be technically mapped to speech sounds. However, Yabu and Fels use classical synthesizers, i.e. formant synthesizers. Partly inspired by the remarkable progress of voice conversion techniques and voice morphing techniques in this decade, we are developing a GMM-based Hand-to-Speech conversion system (H2S system). Unlike the current techniques, our new synthesis method does not limit the input media. Therefore, our technique would be useful in assistive technology, in which devices are tuned for person to person, and in performative field, in which people pursue the human capability of expression.

In this study, we focus attention on the design of the system. As an initial trial, a mapping between hand gestures and Japanese vowel sounds is estimated so that topological features of the selected gestures in a feature space and those of the five Japanese vowels in a cepstrum space are equalized. Experiments show that the special glove can generate good Japanese vowel transitions with voluntary control of duration and articulation.

We also discuss how to extend this framework to consonants. The challenge here is to figure out appropriate gestures for consonant sounds when the gesture design for vowels is given. We reported that inappropriate gesture designs for consonants result in a lack of smoothness in transitional segments of synthesized speech. We have considered the reason to be: (1) the positional relation between vowels and consonants in the gesture space and that in the speech space were not equivalent, (2) parallel data for transition parts from consonants to vowels did not correspond well. In order to solve those problems, we have developed a Speech-to-Hand conversion system (S2H system, the inverse system of H2S system) trained from parallel data for vowels only to infer the gestures corresponding to consonants. Listeners evaluated that an H2S system, which exploits gesture data for consonants derived from an S2H system, can generate more natural sounds than those trained with heuristic gesture design for consonants.

Natural speech generated by an H2S system trained exploiting data generated by S2H system are, however, obtained only when input gestures are the same as the one which generated by S2H system. S2H system sometimes outputs gestures whose dynamic range is too large or which is not smooth enough. In those cases, it is difficult for users to form those gestures in realistic time. In this thesis, we compensate those problems with two ways: (1) reduce the dynamic range by setting the optimal weight for the gesture model (2) smooth the gesture trajectories by considering delta features. Exploiting parallel data for consonants derived from a S2H system, we also implemented a real-time Hand-to-Speech conversion system and evaluated the effectiveness. Subjective user evaluations showed that almost a half of the phonemes, which are generated by our H2S system are perceived correctly and that this system is effective enough to generate emotional speech.

審査要旨 要旨を表示する

本論文は「Gesture Design for a Real-time Gesture-to-Speech Conversion System Based on Space Mapping Between a Gesture Space and an Acoustic Space」(音響空間からジェスチャ空間への写像に基づくリアルタイム音声生成系におけるジェスチャ設計)と題し,英語で書かれており,全7章から成る。現在主流の音声合成方式は,テキスト(シンボル列)を入力とし,内部にシンボル・音響変換のためのモデルを持ち,それを用いて音声波形として出力される。本研究ではシンボル列を入力とはせず,何らかの身体運動を入力として最終的に音声波形を生成する方式を検討する。即ち,身体運動空間から音響空間への写像を考え,その写像を通して音声を生成する。解くべき問題は,音響空間へと対応づける身体運動(ジェスチャ)をどう設計するか,となる。

第一章は序論であり,種々の音声合成手法を概観しつつ,本研究の位置づけについて論じると共に,特に何故シンボル列を入力として使わないのかについても説明している。また本論文の構成についても記述している。

第二章は本研究の背景を述べており,音声合成研究の歴史を辿りつつ,音声合成の各手法をより詳細に紹介すると共に,本研究が目指す身体運動を入力とする事でどのようなメリットがあるのかについても見解を述べている。更には身体運動をモデル化する調音合成方式と比較することで,この研究で目指す身体運動入力の音声合成方式,即ち異メディア間の空間写像を通して音を生成する方式の新規性・独自性について説明し,本研究の目的を明確化している。

第三章では二つの空間から生成されたと仮定できるパラレルデータを用いて(その生成プロセスを考えずに)ボトムアップに,両空間の間に想定される写像関数を推定する方法について論じている。昨今話者変換や声質変換がさかんに研究されているが,本章では写像推定の代表的手法であるパラレルデータのGaussian Mixture Model(GMM)に基づく方法を紹介している。通常はある話者の音響空間と別話者の音響空間とで写像を推定することが多いが,本研究ではこれを異メディア空間間で実行する点が特徴的である。

第四章では,日本語五母音を対象とした Hand-to-Speech(H2S)合成システムについて論じている。異メディア空間間での対応は本来任意であり,何らかの目的関数値を最大化/最小化する形でジェスチャを設計する必要がある。ここでは日本語五母音の音響空間における母音群配置と,ジェスチャ空間において対応するジェスチャ群配置とが,より等価となるようなジェスチャを選ぶことで,母音連続発声(手の動きから合成した音声)の明瞭度が向上することを実験的に示した。

第五章では母音に対応させるジェスチャが凡そ決まった状態で,子音をどうジェスチャに割り当てるのかについて検討している。ここでは既に対応が決まっている音素群(母音群)があることを前提にし,近年機械翻訳や話者変換の分野で導入されている確率的なモデル統合に基づいたジェスチャデザインを検討している。モデル統合の方式を採ることで必要なパラレルデータ量を削減できるため,例えば母音のみのパラレルデータがあれば,そこから新たな子音に対するジェスチャを検討することが技術的に可能となる。その場合,本来のH2S(ジェスチャから音声を生成する)システムではなく,まず,S2H(音声からジェスチャを生成する)システムの構築が必要となり,ここでは事前に収録した母音パラレルデータを用いてS2Hを実装している。そして,S2Hを通して得られたジェスチャに対して再度パラレルデータを得ることで,H2Sを導出している。聴取実験の結果,より明瞭な合成音声が得られることを示した。

第六章は第五章まで検討した母音や子音などをリアルタイムで手から生成するためのシステム構築を行なっている。ここではピッチなどの韻律的特徴も別センサーを使って入力するなど,より実用化を考慮した実装をしている。リアルタイムシステムの評価聴取実験も行ない,その効果を検証している。

第七章では,本研究によって得られた成果についてまとめると共に,今後の課題についても言及している。

以上要するに本論文は,構音器官以外の任意の運動器官を使って音声を生成する方法を,異メディア間の写像推定として定式化し,その一例として手のジェスチャを使ってその方式の妥当性を実験的に検証している。従来異メディア間写像は各メディアに特化した方法論をとることが多かったが,ここではメディアへの依存性を低減し,写像関数の推定問題として定式化して一解法を示しており,情報工学に貢献するところが少なくない。よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク