学位論文要旨詳細

学位論文要旨


No		115143
著者（漢字）		張,勁松
著者（英字）		ZHANG,JinSong
著者（カナ）		チョウ,キンソン
標題（和）		中国語連続音声における声調認識の研究
標題（洋）		Study on Tone Recognition of Chinese Continuous Speech
報告番号		115143
報告番号		甲15143
学位授与日		2000.03.29
学位種別		課程博士
学位種類		博士(工学)
学位記番号		博工第4638号
研究科		工学系研究科
専攻		電子情報工学専攻
論文審査委員		主査：　東京大学　教授　廣瀬,啓吉　東京大学　教授　原島,博　東京大学　教授　西田,豊明　東京大学　教授　相田,仁　東京大学　助教授　伊庭,斉志　東京大学　助教授　森川,博之
内容要旨		声調認識は中国語連続音声認識と理解システムに望まれている。その一つの理由は、中国語では、一つの音節が形態素に対応し、音節の認識が意味の把握特に重要であるからである。中国語は、典型的な音調言語として知られており、声調が意味の区別に重要な役割を果たしている。標準中国語では、四つの基本声調があり、音韻的に同じ発音であっても、声調によって音節の意味は全く異なる。Fig.1は中国語の四つの声調に対する基本周波数パターン(以下F0パターン)の例を示す。従って、声調認識が中国語音声認識と理解システム構築のための重要な要素となる。中国語音声処理システム中で、声調処理は不可欠である。二番目の理由は、声調認識は最近の自然音声対話システム構築に要求されているからである。自然音声対話は、朗読音声と比べると非文法文、disfluenciesや、曖昧文に対処や、対話トピック検出などの新たな問題があり、通常音声認識システムにでは対処できない。それらの問題に対する一つの可能(多分一番良い)の答えは韻律境界や、焦点や、強調など韻律の構造を検出することである。しかしながら中国語F0パターンは韻律構造と声調の両方の影響を受けており。声調の判定をしなければ韻律構造の検出できない。従って声調認識は中国語自然音声対話システムを構築するのため韻律情報利用の第一のステップである。 Figure 1: Distinctive F0 patterns of the four basic lexical tones.Figure 2: An example illustration of Chinese F0 variations. 　従来の声調認識は、主として単語意味区別を対象としたもので、そこで採用された手法は単に音素認識の類似の手法であり、声調統計モデルの構築に止まっている。しかしながら、F0パターンは韻律構造と生理的な原因に影響されて複雑な変化を持つものである。簡単な声調モデルだけを通してこのような複雑な変化をモデリングできない。結果として、従来の声調認識は中国語音声認識理解システムの中に含まれていない。そして韻律構造検出にも不充分なものとなってる。　以上の背景から、本論文では、声調認識を孤立的にではなく、連続音声中の声調と韻律構造のお互いの影響を同時にモデリングしながら行う手法を提案した。このため統計手法開発だけではなく、声調と韻律構造のお互いの影響に対して言語モデル開発も必要である。そこで本論文では言語理論や、音声知識や、統計手法など含めてmulti-disciplinaryな研究を行った。　1.音声デターベースに対して自動的な統計分析と非自動的に言語分析を行った。　2.言語モデルと計算モデルを提案した。　3.声調認識手法を開発して連続音声声調認識実験を行ったところ、韻律構造検出に向いているの可能性が得られた。　論文中では、新たな声調認識の提案は三つの方法に分けて示してある。 1.Intrinsic F0 変化を処理して声調認識を行う方法。　この方法は音声分析と言語分析によって提案したTone Nucleus modelに基づいて開発された。Tone Nucleus model(図Fig.3で示す)は、中国語の音節をtone onset course、tone nucleus、tone offset courseの三つの部分に分けた上で、Tone nucleusが声調知覚に対して一番重要な情報を持っているとする仮説である。他の部分は生理的なIntrinsic transition F0である。Tone nucleusに相当するF0は声調特徴と韻律構造を反映する重要なパラメーターであることが認められた。 Figure 3: Illustrations of the proposed F0 segmental structure model of Chinese syllable F0 contours.Optional F0 segments are indicated by parentheses;only the tone nucleus is obligatory. 　Tone nucleusは提案した統計手法によって検出できる。これは、まず音節F0パターンを逐次クラスタリングによって数個(0個以下)のF0線分に分割する。次に、線形判別に基づく予測器によって、どの線分がTone nucleusに対応するかを決定する。Tone nucleusは変数分析によってさまざまなパラメーターで特徴づけた。声調認識するとき、声調モデルとしては隠れマルコフモデル(HMM)を用いた。 2.声調認識における声調と韻律の関係。　音声の声調と韻律の関係を記述するために"hyper-articulation"という言語イントネーションモデルを提案する。このモデルでは、声調が一種の分節的音素内容を示すものとする。韻律は分節的特微内容の構造単位であり、韻律的特徴は超分節的特徴である。さらに、ストレスと韻律フレーズ構造は韻律構造の例である。音声ストリームの中で、分節の声調と超分節的特徴は同時に起こる。声調は様々なピッチ表現を実現する[laryngeal articulations]によって生成され、韻律構造はその[laryngeal articulations]の変形の影響を受ける。したがって、隣接するトーンの調音効果を分析することによって高レベルな韻律構造の影響を特定することができる。この観点に基づいて、階層構造を持ったトーンモデルの系列を利用して声調と高レベルな韻律構造の相互作用をモデル化できると思われる。　本モデルの計算機上の実装方法として次のようなものを提案する。声調と高レベルな韻律構造の相互作用をモデル化するために、声調を2つのクラスに分類する。すなわち、隣接する声調の調音効果をモデル化するフレーズ内声調と、隣接する声調の不連続性を表すフレーズ境界声調である。それらの調音効果や相互作用による不連続性に対応するためにダイナミック検索アルゴリズムを提案する。さらに、相互作用のラベリングに必要なガイドラインを提案する。このガイドラインは声調音響学習モデルの作成のために必要であり、音声データベースの統計的・言語学的分析に基づいて作成する。 3.アンカリング仮説と声調認識への応用　ここでは、声調知覚における新しい機構を提案する。心理物理学の分野では、ピッチトーンの知覚に関する重要な要素があるとの報告がある。それによると、人間はピッチの高さを判断するにあたってトーンを他のコンテキストと比較(anchor)するという。本稿では、中国語の声調にこのモデルを応用することを提案する。このモデルでは、先行声調に関するオフセット及び後続声調に関するオンセットを、その間にはさまれる声調のピッチの高さのanchor pointとして用いる。さらに、ストレスパターンや話速によるタイミング割り当て機構をモデル化する固有応答競合というものを提案する。これらのモデルを利用することで、標準F0パターンと比較するとかなり歪んでいるF0パターンでも、高精度な知覚が可能であるが説明できる。　トーン生成におけるanchor仮説のコンピュータ実装は、声調トンの正規化に基づく。適切なF0スケールでフレーズ毎に声調を正規化し、韻律フレーズ境界を正規化トーン系列内の不連続点として表す。 4.以上の三つの方法は一つのシステム中で統合することできる。　以上の方法を用いて、公開のデータベースHKU96中の一つ女性の音声を音声資料とし、声調認識実験を行った。結果を図Fig.4に示す。結論として、提案した声調認識方法では、伝統的な方法と比べると、声調認識率において10パーセント以上の性能向上が得られた。これによって、その有効性を証明できた。また、提案したモデリング手法は、中国語韻律構造の検出へ有効であることが分かった。 Figure 4:Recognition results of continuous speech."Full syllable","Tone nucleus"and "Pitch anchoring" denote the methods extracting acoustic features for tone recognition,representing"acoustic features of full syllable","acoustic features of tone nucleus",and "acoustic features of tone nucleus plus pitch-achoring based normalization" respectively."Context Independent Tonal HMMs","Context Dependent Tonal HMMs"and"Hyperarticulation Tonal HMMs"denote the method training tonal HMMs.Context independent and dependent HMMs based on full syllable acoustic features represent the conventional approaches for tone recognition and serves as the baseline systems for evaluation of the performance of our new proposals.
審査要旨		本論文は「Study on Tone Recognition of Chinese Continuous Speech(中国語連続音声における声調認識の研究)」と題し、中国語音声の声調について、連続音声におけるその変化をモデル化することによって、有効な認識手法を開発したものであって全9章からなり、英文で記述されている。　第1章は「Introduction」であって、まず、従来の音声自動認識システムについて統計的言語モデルの問題点を指摘した上で、それを解決するために韻律的特徴が有効であるとしている。次に、音声自動認識での韻律の利用について議論し、中国語においては、声調認識が鍵となることを指摘している。その上で、本論文の目的が連続音声にも有効な声調認識の実現にあるとし、第2章以降の論文の構成を述べている。　第2章は「Chinese Tone Recognition and its Current Status」と題し、まず、標準中国語の声調の一般的な性質を述べ、声調認識が音声認識をはじめ、自動ラベリング、言語学習システムなどに重要であることを指摘している。次に、声調認識の現状についてまとめ、その限界、問題点を明確にした上で、連続音声にも有効な声調認識手法開発するための方略を示している。　第3章は「Background」と題して、本論文で利用した隠れマルコフモデル(HMM)他の手法について概説するととともに、連続音声での声調の基本周波数(F0)パターンの変形の様子とその表現手法について説明している。　第4章は「Data Preparation」と題して、まず、本論文で用いた中国語連続音声データベース(HKU96)について説明した上で、そこで付与された声調ラベルを修正して利用したとしている。次に、本論文で採用した基本周波数の抽出方法、F0パターンのスムージングの方法について説明している。　第5章は「Tone Nucleus-A Proposal for Segmental Representation of Syllable F0 Variations」と題して、まず、連続音声中の音節のF0パターンにおいて、声調を表現する部分と前後の音節からの遷移の部分があることを指摘し、前者を声調核と命名している。次に、多数の音声資料について声調核の様子を視察し、声調核のモデルを構築している。　第6章は「Tone Recognition Based on Tone Nucleus」と題して、従来の声調認識では音節に対応するF0パターンを総て利用していたのに対し、声調核部分のみを利用する手法を提案している。手法の基本は、フレーム単位のF0とその時間一次微分、2次微分、パワーの時間一次微分、2次微分を特徴量として用いたHMMである。さらに、この手法で重要な声調核の検出について、K-means法に基づく手法を開発し、性能評価を行って、第3声に対する特別な取り扱いが必要なことを指摘している。音節の全体を利用する従来の認識手法との比較実験を行い、文脈独立HMM(Uni-gramモデル)、文脈依存HMM(Tri-gramモデル)の双方について、5〜7%の認識率の向上を得て、提案した手法の有効性が立証されたとしている。　第7章は「Tone Recognition Based on Hyper-Articulation Model」であって、隣接音節の声調パターンに対する影響を詳細に調べた上で、それをHMMに反映させた認識手法を提案している。この場合、影響は統語境界の有無などによって変化するが、これを考慮して、Uni-gramモデル、Bi-gramモデル、Tri-gramモデルを使い分けることにより、単にTri-gramモデルを用いるよりも2〜3%の認識率の向上を得ている。　第8章は「Tone Recognition Based on Pitch Anchoring Perception Mechanism」であって、音声知覚におけるAnchoringの機構を取り入れた声調認識手法を開発している。まず、先行音節の影響と後続音節の影響によるF0パターンの変形と知覚との関係について詳細に調べ、声調のAnchoring仮説を構築している。次に、この仮説に基づいて、先行音節終端と当該音節始端、当該音節終端と後続音節始端の基本周波数パターンの差を特徴量に追加し、特に認識の困難であった第3声で認識率の向上が顕著であったとしている。第7章の手法と比較してさらに2%の性能向上を達成し、最終的に、9割程度の高い認識率を達成している。　第9章は「Summary」であって、本研究で得られた成果を要約し、将来の課題について言及している。　以上を要するに、本論文は、中国語連続音声の声調認識について、孤立音節音声と比較した連続音声における声調の特徴の変化を生成面、知覚面からモデル化することによって、従来になく高い認識率の手法を開発したものである。Anchoring仮説による声調の解釈など、声調の研究の一般的な枠組みを与えるとともに、将来的な中国語連続音声認識の高度化の基礎を築いたものと言え、電子工学、情報工学に貢献するところが少なくない。　よって、本論文は博士(工学)の学位請求論文として合格と認められる。
UTokyo Repositoryリンク