学位論文要旨



No 123018
著者(漢字) 王,暁東
著者(英字)
著者(カナ) ワン,ショウドン
標題(和) 声調核モデルに基づくニューラルネットワークを用いた標準中国語連続音声の声調認識
標題(洋) Neural-Network-Based Tone Recognition of Continuous Speech of Standard Chinese Using Tone Nucleus Model
報告番号 123018
報告番号 甲23018
学位授与日 2007.09.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第6635号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 原島,博
 東京大学 教授 石塚,満
 東京大学 教授 浅見,徹
 東京大学 准教授 峯松,信明
 東京大学 准教授 苗村,健
内容要旨 要旨を表示する

In tonal languages, tones are used to distinguish lexical meaning of words. Meanwhile, tonal information is helpful to detect higher level prosody information. Due to this distinct function of tones and the possible assistance from prosody information which can be further detected using tonal information; tone recognition is desirable when constructing the automatic standard Chinese speech recognition system, thus attracting many researchers in the past decades. These studies can be generally divided into two types: embedded approaches and explicit approaches, i.e. approaches done as an integral part of or in parallel to the existing ASR framework. According to the technologies, efforts of explicit approaches, as the mainstream direction, were continuously made along two lines. One line is to construct appropriate statistical tonal models and classifiers, while the other is to make reasonable prosody models in order to overcome difficulties due to substantial F0 variations.

In this work, we adopted the Tone Nucleus Model, which pointed out that as a portion of syllabic F0 contour tone nucleus contains crucial information for tone perception and recognition, to suppress negative effect for tone recognition from neighboring tones, called tonal co-articulation. This model not only can provide a clear linguistic meaning for the F0 normalization process, but also can show explicit potentials for detecting intonation structure. On the other hand, Multi-Layer Perceptron (MLP), one kind of Neural Network (NN) approaches, was used to easily incorporate heterogeneous features, such as category feature and segment duration, which are important for tone recognition. Via integrating these two efficient methods, our proposal can exploit the above advantages to achieve a better performance in tone recognition of continuous speech of standard Chinese.

To realize this proposal, firstly we present an efficient algorithm to automatically extract tone nucleus. High performance of tone nucleus extraction was confirmed by the inspection on results of 50 utterances. With the assistance of this algorithm, input features were calculated, most of which are related to tone nuclei. As for the MLP tone classifier, one hidden layer was exploited to make the construction clearer and effective enough based on the universal approximation theorem for neural networks.

In order to evaluate the proposed system, comparative experiments were implemented both in the speaker dependent and independent tone recognition. In speaker dependent case, the system with MLP tone classifier and feature extraction from whole syllabic voiced part was constructed as the first baseline. Meanwhile, the second baseline is the system with HMM tone classifier and Tone Nucleus model, i.e. features extraction from tone nucleus, reported in the previous work. The same speech corpus was used in the reported work and thus its results can be directly compared with those of current work. Therefore, among these three systems, comparison was carried out. In speaker independent experiments, 20-fold cross-validation was used to avoid the selection of training and testing sets affecting the result, and Global (denoted as G) Mean/Standard-Deviation (denoted as MSD) feature normalization was preliminarily exploited to reduce the features varying with speakers. Then performance comparison of speaker independent tone recognition was implemented between the first baseline system and proposed system.

From the results of baseline systems and proposed system in speaker dependent and independent experiments we can see,

(1)In speaker dependent experiment, the proposed approach achieved an absolute error reduction of 1.3% compared to the 1st baseline, equal to a relative error reduction of 9.2%. In speaker independent experiment, absolute error reduction of 0.5% was also obtained by the proposed approach. The difference of the two systems lies in whether calculating the features from the whole syllabic voiced part or tone nucleus. The better performance of the proposed approach indicates that tone nuclei do keep important and robust discriminating features for the tone recognition.

(2)In speaker dependent experiment, the proposed approach got an absolute error reduction of 1.7% compared to the 2nd baseline, corresponding to relative improvement of 11.7%. The better performance can be attributed to the use of MLP and two additional features: segmental durations and syllable positions in the sentence. But they are difficult to be exploited in an HMM based approach.

However, some problems still exist in proposed tone recognition system. One of them is the feature normalization in speaker independent case, resulting in relatively large difference in performance (about 10%) between speaker dependent and independent statuses.

To solve this issue, three feature normalization approaches were proposed for speaker independent tone recognition, which are Shifting-Window feature normalization, Cumulative Distribution Function matching based on quantile histogram equalization and normalization inside syllabic voiced part, denoted as SW, CDF and InSyl respectively in this thesis.

With regard to evaluation of these normalization approaches, our previous speaker independent tone recognition based on Global Mean/Standard-Deviation normalization was taken as baseline for comparison, marked as MSD+G. The comparative experiments among this baseline, proposed approaches and hybrid of proposed approaches were implemented. From the results of these comparisons, we can conclude that each of these feature normalization approaches is significantly effective for speaker independent tone recognition. The best performance was achieved by the hybrid approach via combining MSD, SW and InSyl together. Through this hybrid approach, the difference of average error rate between speaker independent and dependent tone recognition was reduced from 10.4% to 3.9%.

審査要旨 要旨を表示する

本論文は「Neural-Network-Based Tone Recognition of Continuous Speech of Standard Chinese Using Tone Nucleus Model(声調核モデルに基づくニューラルネットワークを用いた標準中国語連続音声の声調認識)」と題し、ニューラルネットワークを用いた中国語音声の声調型識別器において、音節の中で安定した基本周波数パターンの特徴を示す声調核に着目することにより、従来よりも高い声調型識別率を達成したものであり、全6章からなり英文で書かれている。

第1章は「Introduction」であって、まず、中国語音声における標準中国語音声の位置付けをした後、その発音と表記について概説している。次に、声調言語の概説を行って、標準中国語の音節声調型の特徴を説明している。引き続き、現在までの、標準中国語の声調型に関する研究を概観し、最後に本論文の章立てを示している。

第2章は「Researches of Tone Recognition of Chinese」と題し、これまでの中国語声調型識別の手法を、音声認識システムで暗に取り扱うものと、明に取り扱うものとに分けて整理した上で、それぞれの問題点を指摘し、本論文では、音節の韻律的特徴に着目して明に声調型識別を行う手法を開発するとしている。特に、これまでの声調型識別手法として、声調核に着目する手法とニューラルネットワークを用いた手法を取り上げ、本論文では、それらを統合する形で、新しい声調型識別手法を開発するとしている。

第3章は「Tone Nucleus Model and Neural Network (Multi-Layer Perceptron)」と題し、本論文で開発した手法の基となる声調核モデルとニューラルネットワークについて述べている。声調核モデルは、音節基本周波数パターンを、先行音節からの過渡部、声調核、後続音節への過渡部に分けるもので、声調核の基本周波数パターンは隣接音節の声調型の影響を受けにくく、安定した形状を示すと言う特徴がある。音節全体でなく、声調核の基本周波数パターンに着目することで、隣接音節の声調型に頑健な声調型識別が実現できる。また、声調核の始点終点の基本周波数を、隣接音節のそれらと比較したパラメータも識別に有効である。与えられた基本周波数パターンから声調核を自動的に検出する手法として、ビタビ探索に基づくものを新しく提案し、99.4%(従来法では97.5%)の検出性能を得たとしている。声調識別に、一般的に利用される隠れマルコフモデル(HMM)は、音素持続時間といった特徴を識別に直接利用することが困難である。これに対し、ニューラルネットワークでは、基本周波数と持続時間のような、性格の異なる特徴を、同時に識別に利用することが容易である。ニューラルネットワークの種々のタイプを概説し、本論文では、構造が簡単なMulti-Layer(3層)Perceptronを用いるとしている。

第4章は「Tone Recognition Based on Tone Nucleus Model and Multi-Layer Perceptron」と題して、本論文で提案・開発した声調型識別手法とそれによる1名の女性話者連続音声についての声調型識別実験を行っている。性能比較のため、音節全体の基本周波数パターンの特徴を用いたMulti-Layer Perceptronによる声調型識別実験を行い、提案手法の有効性を示している。また、声調核モデルに基づいた声調型識別手法として、従来報告されたHMMを用いた場合の識別結果と比較しても、良い結果が得られたとしている。

第5章は「Feature Normalizations of Speaker Independent Tone Recognition」と題して、不特定話者の連続音声を対象とした声調型識別について述べている。話者による基本周波数レンジの違いに対処する手法として、平均の基本周波数で正規化する手法を用いるとし、正規化の手法について比較検討した結果について述べている。その結果、発話全体の基本周波数の平均値を用いるよりも、直近の10文程度の平均値(Moving Average)を用いることが有効であるとしている。音節全体の基本周波数パターンの特徴を用いたMulti-Layer Perceptronとの性能比較を行い、声調核モデルを用いることの有効性を確認している。さらに、認識対象話者の基本周波数のヒストグラムを、学習データのそれにマッピングすることにより、識別率が向上することを示した。

第6章は「Summary」であって、本研究で得られた成果を要約し、将来の課題・展望について言及している。

以上を要するに、本論文は、標準中国語連続音声認識で問題となっている声調型識別を有効に行い得る手法として、声調核の韻律的特徴を用いたMulti-Layer Perceptronによる手法を新しく提案し、その、従来手法と比較した優位性を、特定話者、不特定話者の場合の声調型識別実験を行って実証したものであり、電子工学、情報工学に貢献するところが少なくない。

よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク