学位論文要旨



No 126401
著者(漢字) 羅,徳安
著者(英字)
著者(カナ) ラ,トクアン
標題(和) 音声情報処理に基づく音読・シャドーイング音声の自動評価の改良手法
標題(洋) Improvements in Pronunciation Evaluation for Reading-Aloud and Shadowing Speech Based on Speech Technology
報告番号 126401
報告番号 甲26401
学位授与日 2010.09.27
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7364号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 准教授 峯松,信明
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 近山,隆
 東京大学 教授 相田,仁
 東京大学 准教授 杉本,雅則
 東京大学 准教授 小川,剛史
内容要旨 要旨を表示する

The main goal of this research is to improve automatic pronunciation evaluation of reading-aloud and shadowing based on speech technology for Computer-Assisted Language Learning (CALL) systems. One of the biggest challenges in CALL development based on speech processing is the mismatches between learners' speech and the native speech data that is used to train acoustic model. In Automatic Speech Recognition (ASR), speech adaptation techniques such as Maximum Likelihood Linear Regression (MLLR) have been used to reduce these mismatches by using small amount of the target speaker's speech as adaptation data. However, in the case of CALL, learners' pronunciations often contain errors. Conventional speaker adaptation techniques that use learners' imperfect pronunciations as adaptation data can cause the over-adaptation problem, in which case errors can be transformed into good pronunciations after adaptation. Although some studies use MLLR adaptation (with only one transformation for all pronunciations) to keep the main characteristic of speaker while ignoring the pronunciation details, to the best of the authors' knowledge, no quantitative analysis has been reported to investigate the adverse effects of conventional speaker adaptation techniques.

To address the over-adaptation problems, we first analyze the effects and side effects of conventional MLLR adaptation for pronunciation evaluation in terms of automatic scoring and error detection. Evaluation experiments show that: a) although global adaption with only one transformation for all pronunciations indeed improves performances, when more transformations are used for different pronunciations, over-adaption occurs. b) In automatic scoring, when the number of regression tree is larger than 4, the correlation between automatic scores and manual scores is worse than the original models. c) In error detection, the performance of recall rate decreases due to over-adaptation but the performance of precision rate increases even with over-adaptation.

In order to better benefit from speaker adaption and prevent over-adaption at the same time, this thesis presents a novel idea that uses a group of teachers' perfect pronunciations to regularize learners' transformation so that over-adaptation problems can be prevented. We name this method Regularized Maximum Likelihood Linear Regression (Regularized-MLLR) and implement it in two ways: one is using the average of the teachers' transformations as constraints adding to conventional MLLR to prevent radical pronunciation transformation, and the other is using linear combinations of teachers' transformation matrices to represent learners' transformations. We refer to the formal implementation as R-MLLR1 and the latter as R-MLLR2. We compare R-MLLR1 and R-MLLR2 with conventional MLLR by conducting experiments on the same conditions as we investigate the adverse effects of MLLR. Automatic scoring and error detection experiments show that the proposed methods outperform conventional MLLR. By adding constraints to MLLR, R-MLLR1 indeed reduces the adverse effects of MLLR, yet performances still drop due to over-adaptation. R-MLLR2 not only out-performs MLLR global adaption, which is widely use for CALL, but also prevents over-adaptation by using linear combinations of teachers' matrices instead of using learners' directly. The proposed methods can better utilize speaker adaptation and prevent adverse effects, and thus more suitable for CALL systems.

Automatic evaluation methods for shadowing are also proposed. Shadowing is a kind of "repeat-after-me" type exercise, but rather than waiting until the end of the phrase heard, learners are required to reproduce nearly at the same time. Recently, shadowing has attracted much attention in the field of teaching and learning foreign languages for its effects of improving both listening and speaking skills. Since learners have to follow the speaking rate of the presented utterance, their pronunciation often becomes very inarticulate and unintelligible. These features of shadowing make it very difficult to build a reliable scoring system for shadowing speech.

Three techniques are proposed for evaluating shadowing speech. One is using Goodness of Pronunciation (GOP) scores calculated through HMM-based forced alignment. In this method, for automatic scoring, the transcription of the presented utterance and the acoustic models of the target language are required. Another is based on continuous phoneme recognition, in which the acoustic models are also needed, but no transcription is required. The third method is using a time-constrained bottom-up clustering technique. Here, only the presented utterance and the shadowed response are required. The transcription and the acoustic models are not needed. Correlations between automatic scores and manual scores, and correlations between automatic scores and learners' TOEIC scores have been investigated and very good results have been obtained.

We also compare the evaluation performances of shadowing and reading-aloud with different cognitive loads posed on learners. Experimental results prove that shadowing can better reflect learners' true proficiency than reading-aloud by posing an adequate level of cognitive load on learners. Therefore, our proposed shadowing evaluation methods can be used to predict learners' over-all language proficiency. A shadowing scoring system has been developed based on these methods. The system is being used for English classes in several universities in Japan and has received very positive feedbacks from teachers and students.

Finally, automatic prosodic evaluation has also been proposed for learners' personal-best shadowing. Experimental results show that rather high correlation with manual prosodic scores has been found. Automatic prosodic scores and segmental ineligibility scores are combined together by using a multiple regression model and the combined scores further improve the performance of automatic scoring that predicts learners' over-all language proficiency.

審査要旨 要旨を表示する

本論文は「Improvements in Pronunciation Evaluation for Reading-Aloud and Shadowing Speech Based on Speech Technology(音声情報処理に基づく音読・シャドーイング音声の自動評価の改良手法)」と題し,全9章から成る。シャドーイングは比較的高タスクの訓練法であるため,自ずと崩れた発声となる。しかし逆に,その学習者本来の外国語能力を反映し易くなる。この点に着眼し,シャドーイング音声から発音習熟度を推定し,TOEICスコアを予測するシステムを構築した。また,自動発音評価の際に問題となる,年齢や性別などの要因による音響変動についても,発音評価精度に影響を与えない音響モデル適応手法を提案し,評価実験によりその妥当性を検証した。

第一章は序章であり,現在の英語教育における技術支援の様子をまとめるとともに,本研究の目的及び本論文の構成について示している。

本論文では英語を学ぶ日本人学習者を対象としているが,第二章では,日本語と英語の音声学的な差異や,日本人が英語を学ぶ場合,どのような発音誤りが頻発するのかについてまとめている。更には,外国語学習における発音学習の位置づけや,発音学習における本研究の位置づけについても記述している。

第三章では,現在流通しているCALL(Computer-Assisted Language Learning)システムについて概観すると共に,CALLを支える基礎技術である,音声認識技術についても,本研究と関連する範囲に絞って説明している。

第四章では,音声認識の基盤技術の一つである話者適応技術に焦点をあて,話者適応を行いつつ発音評価を行うことの問題点を実験的に明確化している。音声は性別・年齢によって音響的に変形するため,音声の音響的特徴(スペクトル)をそのまま用いると,話者差によって精度差が生じる。これを回避するために,学習者に応じてシステム側の音響モデルを適宜修正する必要がある(話者適応)。しかし,発音評価システムで話者適応を直接用いると,誤った発音に対して適応がかかり,誤った発音を正しい発音と判断するようになる。本章では,この過適応問題を分析的に調査し,問題を明確化している。また,発音評価で広く使われるGOP(Goodness Of Pronunciation)法を改良する Forced alignment GOP 法(以下F-GOP)を提案し,その優位性を実験的に示した。

第五章では,過適応問題を解決する方法として二種類の制約付き話者適応手法を提案し,実験的にその妥当性を示している。何れも,母語話者間での適応の際に使われる変換行列(即ち,発音の誤りが無い話者間での変換行列)を用いて,話者適応の「度合い」に制約をかけている。第一の手法では,正しい変換行列の平均行列から大きくずれる変換行列を抑制する方法であり,第二の手法では,学習者への変換行列を教師間の変換行列群の線形和として定義し,その線形結合重みを推定する形で変換行列を定義した。このようにすることで,不適切な話者適応を抑制できることが予想される。評価実験の結果,過適応による発音評価の精度低下を防ぎ,精度を向上させることに成功した。

第六章では,シャドーイングと呼ばれる新しい外国語訓練法に着眼し,シャドーイング音声を通して外国語習熟度を推定し,TOEICスコアを予測するシステムを構築した。また,提案した話者適応手法やF-GOPを導入することで,その予測精度の向上を実現した。約0.8程度の相関が得られるなど,自動評価手法の妥当性を示すことが出来た。

第七章では,従来の読み上げ音声に対する自動評価と,シャドーイング音声の自動評価とを比較することで,シャドーイングさせることの意義について実験的に検討した。シャドーイングは認知タスクの高い訓練法であり,自ずと崩れた発音となるが,実験の結果,学習者本来の外国語習熟度が,その発声に,より明確に反映される様子が観測された。即ち,読み上げという比較的容易なタスクでは,習熟度の差異が定量的に観測され難くなるが,シャドーイングの場合,高タスクであるが故に,より観測され易くなる様子を示すことができた。

第八章では,シャドーイング音声の韻律的特徴に焦点を当て,種々の韻律的特徴を用いることで,習熟度推定(ここでは,学習者の書き起こし率)予測の精度向上を検討した。と同時に,様々な状況下でシャドーイングをさせることで,どのような条件(テキスト提示の有無,シャドーイングの繰り返し回数など)がシャドーイング発声に影響を与えるのかについても定量的分析を行った。

第九章で本論文をまとめ,また,今後の課題についても言及している。

以上要するに本論文は,外国語発音自動評価の際に生じる技術的問題に焦点を当て,それを解決する基盤技術を提供し,また応用場面として,従来研究例の無いシャドーイング音声を対象として各種分析を行い,最終的に,自動評価システムの構築を行うなど,電子工学に貢献するところが少なくない。よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク http://hdl.handle.net/2261/37656