
No 129613
著者(漢字) ショート,グレゴリー ジェームズ
著者(英字) SHORT,Gregory James
著者(カナ) ショート,グレゴリー ジェームズ
標題(和) 非母語話者の日本語単語発話における韻律的誤りの知覚的側面からの自動分類
標題(洋) Perceptually-motivated Automatic Error Classification for Japanese Lexical Prosody in Non-native Speech
報告番号 129613
報告番号 甲29613
学位授与日 2013.03.25
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第435号
研究科 情報理工学系研究科
専攻 電子情報学専攻
論文審査委員 主査: 東京大学 教授 峯松,信明
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 浅見,徹
 東京大学 教授 伊庭,斉志
 東京大学 教授 森川,博之
 東京大学 講師 ボッレーガラ,ダヌシカ
内容要旨 要旨を表示する

For Japanese language learners, the acquisition of lexical prosody can be tremendously difficult. Therefore, a Computer Assisted Language Learning (CALL) system would have many benefits for them. For such systems, error classification or detection is said to be vital for generating feedback to the learner. The goal of pronunciation learning or any aspect of language learning for that matter is to acquire the correct mapping function Accurate error classification is not an easy issue to tackle, however, as the types of errors that learners can produce are many and may be unlike what is seen in Japanese productions. This means that simply choosing a group of features may not yield the best results. Since pronunciation classification is ultimately an act perception on the part of the native, in-depth analysis into the perception of natives should lead to more robust algorithms that more accurately reflect how natives map the acoustic features into linguistic categories.

In this thesis, we analyze native perception of Japanese pronunciation for the creation of algorithms to automatically classify errors. For this analysis, we employ speech continua synthesized from native speech. First, we conduct perceptual experiments on Japanese pitch accent perception and construct an algorithm for automatic classification of pitch patterns. For this, classification functions are derived based on the results of the listening tests. These classification functions are then used to automatically recognize nonnative pitch patterns. Secondly, we look into the perception of vowel length distinction. From these results, we derived an algorithm to automatically classify vowel length making use of SVMs and the knowledge gained from the perceptual experiments. Lastly, we examined the perception of gemination and constructed a method based on these tests to automatically classify gemination for various types of consonants.

In this work, we were able obtain good results for automatic error classification in all aspects. For pitch accent we achieved around 80% correct classification of the accent kernel, LH transition, and no-transition when the agreement rate was high, and the recognition rate approximated the inter-labeler agreeement rate. In the case of automatic vowel classification, we were able to attain roughly 80% correct classification rate and performance that did not show degradation due to speaking rate. In the case of gemination, over 80% agreement rate was attained for most consonant types with some cases exceeding 90%. In addition to the engineering contributions, through this process new scientific discoveries were also made and through this process we have shown the validity of conducting perceptual experiments to develop recognition methods.

審査要旨 要旨を表示する

本論文は「Perceptually-motivated Automatic Error Classification for Japanese Lexical Prosody in Non-native Speech(非母語話者の日本語単語発話における韻律的誤りの知覚的側面からの自動分類)」と題し、合成音声を用いた母語話者の知覚実験結果から、日本語単語音声の韻律に関する判断境界の定式化を行い、それに基づいて、アクセント型、長母音/短母音、促音化の発音誤り検出・同定手法を、発音教育システムへの利用を念頭に置いて開発したもので、全8章からなり、英文で書かれている。


第2章は「Nonnative Pronunciation Improvement and CALL Systems with Error Classification as a Systems as a Solution」と題し、まず、非母語話者が発音を学ぶ上で、発音誤りの自動分類/検出を精度良く行うCALLシステムが求められるとしている。次に、音声生成と知覚に関する従来の研究を概説し、非母語話者の音声生成と知覚が、母語話者のそれとどのように異なり、何が問題となるかを整理している。その上で、非母語話者が当該言語の発音を獲得するための要点を整理し、CALLシステムの有するべき機能をまとめている。先行するCALLシステムについて概観し、学習者母語に特化したシステムの有効性と問題点を論じ、本論文では、学習者母語によらないシステムの開発を目指すとしている。また、音声の韻律的特徴、特に単語レベルでの特徴を対象にするとしている。最後に、第3章以降の構成を概略している。

第3章は「Overview of Japanese Prosody and Prosody Acquisition by Nonnatives and Proposal for Error Classification Algorithm Development」と題し、まず、日本語の単語音声の韻律に関連するものとして、アクセント型、長母音/短母音、促音化を取り上げ、それぞれについて概説している。次に、非母語話者音声に見られるこれらの発音誤りについて、米語、韓国語、中国語を母語とする場合に焦点を当てながら概観している。母語の影響を受けて発音誤りの様子が多岐に渡ることを指摘し、その様な中で、発音誤りの分類/検出を精度良く行うためには、特徴量を系統的に制御した合成音声を用いた母語話者を聴取者とした知覚実験によって、正誤の判断境界を求める必要があるとしている。最後に、特徴量(基本周波数、長さ)をどの様に制御して合成音を作るかについて述べている。

第4章は「Preliminary Analysis of Japanese Pitch Accent Perception」と題し、アクセント型に関してminimal pairとなる有意味単語(音素構成が同じでアクセント型により意味が異なる単語の組)を用いたアクセント型の知覚実験とその結果を述べ、次章の判断境界を求めるための詳細な知覚実験の要点を整理している。

第5章は「Automatic Accent Recognition for Error Classification based on Equations Derived from Perceptual Experiments」と題し、アクセント型に対応するモーラ間の基本周波数の上昇と下降の知覚に焦点を当てた種々の知覚実験を行ない、知覚の判断境界を、シグモイド関数を用いて定式化している。その際、長母音を含む場合と含まない場合について個別に取り扱っている。整理した結果に基づき、アクセント型の発音誤りを分類/検出する手法を開発している。比較対象として、モーラの基本周波数平均値などのパラメータを用いた識別器をSVM(Support Vector Machine)で構築し、開発した手法の有用性を示している。

第6章は、「Perceptually-motivated Automatic Recognition of Vowel Length」と題し、長母音/短母音の識別について、前章のように知覚実験を行って判断境界を求め、それに基づいて手法を開発している。判断境界は、発話速度の影響を受け、それを考慮に入れた知覚実験と結果の定式化を行っている。比較対象として、HMM音声認識器による識別実験を行い、開発手法の優位性を示している。

第7章は、「Automatic Detection of Gemination with Equations based on Perceptual Experiments」と題し、第6章と同様な枠組みで促音化の識別手法を開発している。促音化は、摩擦音、破裂音、破擦音、鼻音で起こるが、それぞれ、発話速度ごとに実験を行い、全体として、HMM認識器を超える性能を達成している。




UTokyo Repositoryリンク