学位論文要旨



No 114237
著者(漢字) 河合,剛
著者(英字)
著者(カナ) カワイ,ゴウ
標題(和) 音声言語情報処理を利用した非母語発音学習
標題(洋) Spoken language processing applied to nonnative language pronunciation learning
報告番号 114237
報告番号 甲14237
学位授与日 1999.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4363号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 青山,友紀
 東京大学 教授 原島,博
 東京大学 教授 石塚,満
 東京大学 助教授 相田,仁
 東京大学 助教授 森川,博之
内容要旨 概説

 成人が母語でない言語の発音を学習する際、専門の教師と1対1で指導を受けるのが理想だが、授業時間の制約や教育費用の高騰などの理由から学習時間が不足しがちである。発音教育の指導効率を上げ、就学期間の短縮や学習量の増加を図り、発音能力の習得と保持を高めるために、習得が困難な発音技能を教師の手を借りずに教室外で単独で学べるようにしたい。学習者が自分の発音の適否を自分で判断できるくらいなら発音を学ぶ必要がないから、発声の練習には矯正フィードバックが不可欠である。自習するからには発音能力の測定ならびに評価の自動化が必須の条件である。

 本研究は、教師が学習者に発音学習の概要を教室で指導したうえで、機械的な反復練習をコンピュータを用いて行ない、発音誤りを自動的に判別して矯正フィードバックを与えるシステムを提案した。言語音の主だった特徴である音長(音の持続時間)、韻律(音のピッチ)、音色(音のスペクトル)を測定する手法を音声言語情報処理技術を利用して開発した。一部の音声特徴は単に正誤判定をするだけでなく、母語話者の何パーセントに通じるかを知覚実験に基づいて推定し採点の尺度としたので、学習者の発音能力の向上が理解しやすいのが特長である。

 システムの有効性を評価するために、音長の測定技術を「日本語の特殊拍の学習システム」として実装した。これは日本語非母語話者が日本語の拍感覚を身につけ、長音と短音を区別して発音できるように訓練するシステムである。同様に韻律は「日本語のピッチアクセントの学習システム」として実装した。これは日本語非母語話者が日本語のアクセント感覚を身につけ、単語や語句の高低アクセントを正しく発音できるように訓練するシステムである。そして音色は「英語の母音挿入の矯正システム」(日本語母語話者が英語を話すときに挿入してしまう母音を検出し、修正を促すシステム)、「英語の音の置換・挿入・脱落を検出するシステム」(日本語母語話者が英語を話すときに置換・挿入・脱落される音を検出するシステム)、「日本語の英語なまり測定システム」(英語母語話者が日本語を話すときの英語なまりの度合を測定するシステム)、として実装した。これらの実装例を通じて要素技術の可搬性や言語独立性を示すとともに、発音学習の自動化の有効性を明らかにした。

 以下、本研究の目的、採用したアプローチの基本姿勢、音長・韻律・音色を測定する手法ならびに評価実験の結果について、要点を順に述べる。

研究の目的

 本研究の原動力になっている疑問は「どうやったら成人が外国語を話せるようになるか」である。(いま用いた「外国語」という表現は適切でない。正しくは「母語でない言語」と表現せねばならない。母語でない言語は必ずしも外国の言語と限らないからである。しかしここでは正確だけれでも不自然な言い回しよりも、不正確ながらもわかりやすい表現を採用する。)

 幼児はいかなる言語でもやすやすと身につけるのに、大人は驚異的な努力をもってせねば新しい言語を覚え切れない。学習の到達が低いと、母語で簡単に言い表せる内容を伝えるのにつたない表現しか選べず、会話も遅くもどかしい。語学学習は繰り返しが多く、素材も幼稚で、学習者と教師の両者にとって単調である。この語学学習の苦痛を和らげる方法を探るのが、本研究の動機である。

 言語技能の中でもとりわけ発音は母語話者に近いレベルまで学ぶのがが難しい。母語話者なみの発音は往々にして成人非母語話者の手が届かない夢である。専門の教師の個人指導を受けられれば良いが、現実的には教師との時間が限られているので、教師の手をなるべく借りずに学びたい。教師も退屈な作業から解放されて、高度な言語活動の指導などの高付加価値の教育作業に従事できる。ところがテープレコーダや音声分析装置を用いた在来の自習方式は、学習者が自分の発音の適否を自分で判断せねばならないとか、発音誤りの修正方法がわからないとか、聞き取りの訓練に終止して発音をまるで練習しないといった本質的な欠点をはらんでいる。

 発音の練習には権威ある矯正フィードバックが不可欠である。このためには次の3条件がそろわなければならない。

 (1) 何を間違えたのかを明らかにする。(発音の間違いの特定)

 (2) どのくらい通じるのかを明らかにする。(発音の了解度の測定)

 (3) どう直せばいいのかを明らかにする。(発音の矯正方法の提示)

 いままでの発音自習方式は、これらの3条件をまったく満たさなかった。たとえば、発話全体の発音の良否を測定する手法は提唱されているが、発話中の発音誤りを検出できない(したがって発音矯正の方法も指示できない)。発音の良否の尺度も、いわゆる「外国語なまり」の度合を主観的な順序尺度で表しただけで、発話がどのくらい通じるかを予測するものではなかった。発音自習方式の本質をさぐるために上記3条件を満たす発音自習方式の理論を明らかにし、かつ実装例を通じてシステム開発戦略の有効性を証明するのが本研究の狙いである。

研究の理論的背景

 発音能力の測定ならびに評価の自動化の理論的背景の基本は次の2点に要約できる。

 (1) コンピュータによる音声言語情報処理技術を利用した学習者音声の分析。

 (2) 人間の音声言語に対する知覚を調べるための心理学実験の結果にもとづく発音の了解度の測定。

 上記の(1)にとって重要なのは、発話に含まれる話者性(その話者の生理的条件などに起因する、言語に依存しない話者の個人的側面)と言語性(その話者が話す言語が、その言語を話す者すべてに共通して与える影響)とを分離する技法である。言語性を無視すれば発音教育が成り立たないのは明らかである。話者性を保ったままの学習は、発音品位の評価に声の美醜といった発音能力と無関係な要因が関与する恐れがあり、また、学習者と同一の話者性をもつ模範話者を見つけない限り、模範話者の話者性を含んで学習するので声帯模写の訓練に陥る恐れがある。したがって発音を学習するためには話者性を除去し、言語性のみに注目しなければならない。本研究では、言語性を保ったまま話者性を取り除く方法として、不特定話者音声認識技術を採用した。言語性だけを取り出せば、外国語教授法の分野でいままでに得られた知見を用いて発音を矯正できる。

 上記の(2)にとって重要なのは、人間の音声知覚に与える要因の特定である。たとえばピッチの知覚は、単に基本周波数の高低で決まるのではなく、音の長さやパワーの影響も受ける。これらの要因の相互関係を知るために、段階的に調節した音声を音声合成技術を用いて作り、合成音を母語話者に聞かせる心理学実験を行なった。測定対象の変数だけを人工的に調節して複数の母語話者に適否を判断させれば、学習者がもしそのような音声を発音した場合、母語話者がどのように発音を判断するかを予測できる。この予測値を本研究は「了解度」と呼んで発音品位の尺度としている。了解度は、言語を実際に運用する場面において発音がどの程度通じるかを表す尺度であるから、学習者の発音能力がどの程度高まったのかが理解しやすい。

 上記の(1)(2)からわかるように、本研究が採用したアプローチの基軸は、学習者の発音から言語性だけを抽出し、発音誤りを検出し、了解度と修正方法を学習者に伝えるという手順である。以下、具体的な実装例を通して、発音自習のための理論がシステム開発にどのように適用されるのかを説明する。

音長の測定と評価

 音長(言語音の持続時間)は音声の基本的特徴量のひとつである。音長を用いた発音学習の可能性を示すために、音長が音韻的に意味を持つ言語における音長の発音学習のありかたを検討した。

 日本語では長音と短音の音韻対立があり、日本語教育の分野ではまとめて「特殊拍」と呼ばれ、日本語を外国語として学ぶ人の学習上の障害となっている。そこで音声合成器を用いてさまざまな音長を合成し、日本語母語話者に聞かせて長短のいずれに聞こえるかを判断させた(図1に知覚実験の結果の例を示す)。つづいて音声認識器を用いて入力音声の音長を測定し、測定された音長から音長の適否を判断するアルゴリズムを開発した(図2にアルゴリズムの処理の流れを示す)。このアルゴリズムを対話型学習システムとして実装し(図3にグラフィカルユーザインタフェースの例を示す)、学習効果測定実験を行なった(図4に学習効果測定実験の結果を示す)。実装にまつわる一連の作業ならびに学習効果測定の結果から、音長を用いた発音学習の自動化が可能であり、かつ語学学習の観点からも意義が高いことがわかった。

韻律の測定と評価

 韻律(言語音のピッチの上がり下がり)も音声の基本的特徴量のひとつである。韻律を用いた発音学習の可能性を示すために、韻律が音韻的に意味を持つ言語における韻律の発音学習のありかたを検討した。

 日本語では拍によって音の高低があり、日本語学でピッチアクセントと呼ばれる単語の韻律パターンを持っている。「雨」と「飴」、「箸」と「橋」の対立がこの例である。音長を指導するシステムと基本的に同様の方法で知覚実験を行なった。音声合成器を用いてさまざまなピッチを合成し、日本語母語話者に聞かせて高低のいずれに聞こえるかを判断させた。つづいて音声認識器を用いて入力音声のピッチを測定し、測定されたピッチからピッチの適否を判断するアルゴリズムを開発した。このアルゴリズムを対話型学習システムに実装し、学習効果測定実験を行なった。韻律を用いた発音学習の自動化が可能であり、かつ語学学習の観点からも意義が高いことがわかった。

音色の測定と評価

 音色(言語音のスペクトル情報)も音声の基本的特徴量のひとつである。音色が意味を持たない言語は存在しない。スペクトルには多くの情報が含まれるので、話者性を除去し、言語性だけを抽出するためのアルゴリズムが必要である。外国語学習者は学習者の母語と学習対象の言語の両方の発音を混ぜて発話すると考えられる。このような場合、音声信号からだけでは調音器官の動きを特定できない。本研究では音の弁別的認識を用いた発音学習のありかたを検討した。

 はじめに学習者の母語と学習対象の言語のそれぞれの母語話者音声から学習させた音響モデルを用いた単音音声認識器を用意した。語学教師から得た知見をもとに、目的の正しい音がどのような音に代替されて発音されるのか(音の置換誤り)、あるいは全く発音されないのか(音の脱落誤り)、あるいは余計な音が発音されるのか(音の挿入誤り)を調べ、これらの現象を外国語学習者の発音に見られる音韻規則として記述した。学習者の音声がシステムに入力されると、システムはどこでどの音が生じたかを認識する。音の種類ごとに認識するので話者性が相殺される。図5にアルゴリズムの処理の流れを、図6にグラフィカルユーザインタフェースの例を示す。発音学習の具体例として、「英語の母音挿入の矯正システム」(日本語母語話者が英語を話すときに挿入してしまう母音を検出し、修正を促すシステム)、「英語の音の置換・挿入・脱落を検出するシステム」(日本語母語話者が英語を話すときに置換・挿入・脱落される音を検出するシステム)、「日本語の英語なまり測定システム」(英語母語話者が日本語を話すときの英語なまりの度合を測定するシステム)を実装した。音色を用いた発音学習の自動化が可能であり、語学学習の観点からも意義が高く、言語に依存しない高い汎用性の方式であることがわかった。

 音色の了解度を測る知覚実験は実施が困難であり、おそらく原理的に不可能ではないかと思われる。しかし「外国語なまり」の度合いを示す尺度として「単音の発音誤りの種類の数」に基づく定量化を試みた。英語母語話者が日本語の母音を発音するときのように、多数の音をもつ言語の話者が少数の音を持つ言語を発音する場合は、提案した尺度が外国語なまりの指標として役立つ。

まとめ

 本研究は発音能力の自動評価の理論的背景を明らかにし、実装例を通じて理論の有効性を示した。本研究が提唱する技法は発音教育に限らず、言語認識(母語認識や方言認識を含む)や話者適応などの音声認識の頑健さを高める効果も期待できる。また、いままでは音声認識技術の基本性能に含まれなかった音長(日本語の特殊拍や、英語の単語強勢など)や韻律(日本語のピッチアクセントや、各国語のイントネーションパターンなど)の認識にも応用できる。知覚実験に基づく音の範疇型判断を音声認識アルゴリズムに取り込めば、データ駆動型の統計処理一辺倒の研究現況に好影響をおよぼしうる。

図1.音長の長短を母語話者に判断させた知覚実験の結果の例。この例では[hata]の[t]の破裂前の閉鎖(無音区間)の持続時間を11段階に調節して合成し、合成音を日本語母語話者に聞かせて「はた(旗)」と「はった(張った)」のどちらに聞こえるか(あるいはどちらでもないか)を判断させた。図の△と○はそれぞれ「はた」と「はった」に聞こえると回答した母語話者の割合(どちらにも聞こえないと回答した割合は図に示していない)。△と○がそれぞれ正規分布であると仮定して最小誤差の正規分布を求めたのが図の曲線で、これらの曲線は任意の音長の[t]の破裂前閉鎖が「はた」「はった」のどちらに聞こえるかを表す了解度を示している。図2.アルゴリズム処理の流れ。母語話者音声から学習させた音響モデルを用いた単音音声認識器に、練習課題を与えた学習者が朗読した音声を入力し、音長を計測する。計測された音長は、事前に行なった知覚実験の結果から適否を判断され、短すぎる場合はより長く発音するように、長すぎる場合はより短く発音するように指導する。図の赤色の矢印は学習者が発音を練習する際に行なわれる処理を示す。緑色の矢印は事前に用意しておく処理である。図3.学習効果測定実験の結果の例。この例では5人の学習者が練習した3種類の特殊拍ミニマルペア(「はた・はった」「かど・カード」「こな・こんな」))の了解度の練習を追うごとの変化が示されている。練習を重ねるにつれて了解度が少しずつ確実に向上する様子がわかる。図の■が短音の了解度を、○が長音の了解度を示している。長音の了解度が最初から良いのは学習者がゆっくり発話していたためと思われる。図4.日本語の拍感覚を身につけるための「特殊拍学習システム」のGUI(graphical user interface)の例。この例では、学習者が「ほね(骨)」と「ほんね(本音)」を朗読し、システムが「ね」と「んね」に含まれる[n]の音長を測定したうえで適否を判断している。「ほね」の[n]がやや長く、日本語母語話者の65%程度にしか「ほね」と聞き取られないだろうと判断したので、もう少し短く発音するように指導している。「ほんね」の[n]は日本語母語話者の100%に通じると予想される適切な音長であった。図5.アルゴリズム処理の流れ。学習者の母語と、学習対象の言語のそれぞれの母語話者音声から学習させた音響モデルを用いた単音音声認識器に、練習課題を与えた学習者が朗読した音声を入力し、音を弁別的に認識する。認識された音が目的とする正しい音であれば正解とし、もしも間違っていれば、どの音として認識されたかに応じて修正法方を学習者に提示する。図の赤色の矢印は学習者が発音を練習する際に行なわれる処理を示す。緑色の矢印は事前に用意しておく処理である。図6.音色を指導するための「音の種類を学習するシステム」のGUI(graphical user interface)の例。この例では、学習者が与えられた英文を朗読し、システムが各音ごとに音の脱落、置換、挿入が起きたかどうかを調べる。この例では、[r]が発音されなかったこと(脱落)、[dh]が[z]として発音されたこと(置換)、余計の音はなかったこと(挿入)、が示されている。学習者はシステムの認識結果を見て、音の選択を修正する。
審査要旨

 本論文は「Spoken Language Processing Applied to Nonnative Language Pronunciation Learning(音声言語情報処理を利用した非母語発音学習)」と題し、非母語話者を対象とした発音学習システムを、音声認識等の音声情報処理技術を活用して計算機上に構築したものであって、全7章からなり、英文(一部日本文)で記述されている。発音学習の到達度を人間の評価と対応して表示するなどの幾つかの新しい手法を包含する従来にない発音学習システムである。

 第1章は「Abstract」であって、本論文を英文要約すると共に、日本文で若干詳しく要約している。

 第2章は「The Problem」と題し、現在、数が増えつつある外国人の発音習得が人間の教師によっていては実効を挙げることができず、学習者が個人で利用できるシステムの必要性があることを指摘し、これが本論文の研究が必要な背景であるとしている。

 第3章は「The Literature」と題して、テープレコーダの繰り返し聴取といった古典的な学習手法から、音声の分析結果を示す学習システム、最近の音声認識による発音評価に基づく対話的な学習システムに至る、発音学習に関する研究を紹介し、その問題点として、音声認識による発音評価が音響モデルとの一致度を示すのみで、正しい発音としてどの程度認められるかといった観点からの評価でないことを指摘している。さらに、現在の発音学習システムでは、発音の誤りの特定、発音の了解度の測定、発音の矯正方法の提示がなされていないことを指摘し、本論文ではこれらを考慮した発音学習システムを開発するとして、後続する章への導入としている。

 第4章は「Phone Duration」と題して、音長の発音学習システムを構築している。日本語では長音と短音の音韻対立があり、前者を特殊拍音素と総称する。具体的には、長母音、促音、撥音であり、これらは、それぞれ母音、無音、鼻音の持続時間により、対応する通常拍と区別される。ある音長の音韻が特殊拍音素あるいは通常拍音素と知覚される確率を持続時間を制御した合成音声を用いた知覚実験から求めておき、音声認識による音素強制切り出しによって測定した学習者音声の持続時間をそれと比較することによって、音長の適否を音韻が正しく知覚される確率として示す学習手法を提案している。これを対話型システムとして計算機に実装し、発音学習に効果があることを実証している。

 第5章は「Pitch」と題して、同一音素構成でありながらアクセント型により異なる意味を持つ単語対を対象として、韻律の発音学習システムを構築している。まず、単語対において拍の基本周波数を制御した音声を合成し、その知覚実験を行って、各々の単語として知覚される確率と基本周波数パターンとの関係を求める。次に、音声認識による音素強制切り出しと基本周波数抽出によって、学習者音声の各モーラの平均ピッチを自動的に測定し、知覚実験結果と比較して、各々の単語として知覚される確率を計算する。この学習手法を対話型学習システムとして実装して学習効果実験を行い、有効性を確認している。

 第6章は「Phone Quality」と題して、音声のスペクトル情報としての音色に関する発音学習手法を開発している。この方法は、学習対象言語と学習者母国語の各々について音素隠れマルコフモデルを用意した上で、学習者の音声がどちらの音声として認識されるかを求めるものである。発話誤りを含む発話内容を予め記述することにより音素認識率を実用的なレベルまで向上させている。母音置換を検出を第3章の音長発音学習システムに組み合入れ、総合的な日本語特殊拍発音学習システムを構築するとともに、英語を学習する日本人のための発音学習システムを構築した。この英語学習システムでは、日本人に顕著な母音挿入を自動検出して、矯正指示を出す。また、音素置換の自動検出についても試み、検出精度や母国語話者間の発声のばらつき等を加味して音素置換矯正指示を提示する手法を開発した。なお、音色に関しては、音長、ピッチの様な知覚実験結果に基づく発音評価が困難であるが、それに替わるものとして、置換が起る音素の種類の数を用いることを提案し、熟達度として定義している。

 第7章は「Conclusion」であって、本研究で得るれた成果を要約し、将来の課題について言及している。特に、音長については長すぎる場合の矯正、ピッチについてはフレーズあるいは文レベルでの矯正を次に対象とすべきとしている。音色については、人間の評価と一致した発音の善し悪しを音声認識によって得ることの可能性が困難であるとし、新しい手法の必要性を示唆している。

 以上を要するに、本論文は、音声認識などの音声情報処理技術を活用した外国語発音学習アルゴリズムを開発し、それをシステムとして実現し、評価を行ってその有効性を示したものである。従来のシステムと異なり、発音の誤りの特定、発音の了解度の測定、発音の矯正方法の提示が可能な斬新なシステムを構築しており、電子工学、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク