本論文は「Study on Tone Recognition of Chinese Continuous Speech(中国語連続音声における声調認識の研究)」と題し、中国語音声の声調について、連続音声におけるその変化をモデル化することによって、有効な認識手法を開発したものであって全9章からなり、英文で記述されている。 第1章は「Introduction」であって、まず、従来の音声自動認識システムについて統計的言語モデルの問題点を指摘した上で、それを解決するために韻律的特徴が有効であるとしている。次に、音声自動認識での韻律の利用について議論し、中国語においては、声調認識が鍵となることを指摘している。その上で、本論文の目的が連続音声にも有効な声調認識の実現にあるとし、第2章以降の論文の構成を述べている。 第2章は「Chinese Tone Recognition and its Current Status」と題し、まず、標準中国語の声調の一般的な性質を述べ、声調認識が音声認識をはじめ、自動ラベリング、言語学習システムなどに重要であることを指摘している。次に、声調認識の現状についてまとめ、その限界、問題点を明確にした上で、連続音声にも有効な声調認識手法開発するための方略を示している。 第3章は「Background」と題して、本論文で利用した隠れマルコフモデル(HMM)他の手法について概説するととともに、連続音声での声調の基本周波数(F0)パターンの変形の様子とその表現手法について説明している。 第4章は「Data Preparation」と題して、まず、本論文で用いた中国語連続音声データベース(HKU96)について説明した上で、そこで付与された声調ラベルを修正して利用したとしている。次に、本論文で採用した基本周波数の抽出方法、F0パターンのスムージングの方法について説明している。 第5章は「Tone Nucleus-A Proposal for Segmental Representation of Syllable F0 Variations」と題して、まず、連続音声中の音節のF0パターンにおいて、声調を表現する部分と前後の音節からの遷移の部分があることを指摘し、前者を声調核と命名している。次に、多数の音声資料について声調核の様子を視察し、声調核のモデルを構築している。 第6章は「Tone Recognition Based on Tone Nucleus」と題して、従来の声調認識では音節に対応するF0パターンを総て利用していたのに対し、声調核部分のみを利用する手法を提案している。手法の基本は、フレーム単位のF0とその時間一次微分、2次微分、パワーの時間一次微分、2次微分を特徴量として用いたHMMである。さらに、この手法で重要な声調核の検出について、K-means法に基づく手法を開発し、性能評価を行って、第3声に対する特別な取り扱いが必要なことを指摘している。音節の全体を利用する従来の認識手法との比較実験を行い、文脈独立HMM(Uni-gramモデル)、文脈依存HMM(Tri-gramモデル)の双方について、5〜7%の認識率の向上を得て、提案した手法の有効性が立証されたとしている。 第7章は「Tone Recognition Based on Hyper-Articulation Model」であって、隣接音節の声調パターンに対する影響を詳細に調べた上で、それをHMMに反映させた認識手法を提案している。この場合、影響は統語境界の有無などによって変化するが、これを考慮して、Uni-gramモデル、Bi-gramモデル、Tri-gramモデルを使い分けることにより、単にTri-gramモデルを用いるよりも2〜3%の認識率の向上を得ている。 第8章は「Tone Recognition Based on Pitch Anchoring Perception Mechanism」であって、音声知覚におけるAnchoringの機構を取り入れた声調認識手法を開発している。まず、先行音節の影響と後続音節の影響によるF0パターンの変形と知覚との関係について詳細に調べ、声調のAnchoring仮説を構築している。次に、この仮説に基づいて、先行音節終端と当該音節始端、当該音節終端と後続音節始端の基本周波数パターンの差を特徴量に追加し、特に認識の困難であった第3声で認識率の向上が顕著であったとしている。第7章の手法と比較してさらに2%の性能向上を達成し、最終的に、9割程度の高い認識率を達成している。 第9章は「Summary」であって、本研究で得られた成果を要約し、将来の課題について言及している。 以上を要するに、本論文は、中国語連続音声の声調認識について、孤立音節音声と比較した連続音声における声調の特徴の変化を生成面、知覚面からモデル化することによって、従来になく高い認識率の手法を開発したものである。Anchoring仮説による声調の解釈など、声調の研究の一般的な枠組みを与えるとともに、将来的な中国語連続音声認識の高度化の基礎を築いたものと言え、電子工学、情報工学に貢献するところが少なくない。 よって、本論文は博士(工学)の学位請求論文として合格と認められる。 |