学位論文要旨



No 116654
著者(漢字) 石井 カルロス 寿憲
著者(英字)
著者(カナ) イシイ カルロス トシノリ
標題(和) 日本語の韻律解析と発音教育システムへの応用
標題(洋) Japanese Prosody Analysis and its Application to Computer-Aided Language Learning Systems
報告番号 116654
報告番号 甲16654
学位授与日 2001.09.28
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5066号
研究科 工学系研究科
専攻 電子情報工学専攻
論文審査委員 主査: 東京大学 教授 広瀬,啓吉
 東京大学 教授 原島,博
 東京大学 教授 石塚,満
 東京大学 教授 相田,仁
 東京大学 助教授 峯松,信明
内容要旨 要旨を表示する

 韻律の発声を支援する発音教育システムでは母語話者の発声とマッチングしてその誤差を評価するという手法が多く、その言語の韻律的特徴を人間の知覚の観点から考慮したうえで評価する手法は少ない。本研究では、人間が行うのと同様に韻律的特徴を抽出することを目指して、母語話者がいかに韻律を生成して、いかにその生成されたものを知覚しているのか、というような観点から、日本語の特殊拍、モーラ・リズム、アクセントとイントネーションについて分析を行った。

特殊拍

 日本語の特殊拍(長音、促音、撥音)の誤った発声はコミュニケーションにおいて誤解をまねく恐れがあるので、学習者に対しては発音教育の重要な課題となる。

 特殊拍は主に持続時間によってその音韻性が判別されるが、話速が変わると当然音の持続時間は伸縮するし、その伸縮率は音によって異なるという問題点がある。過去の研究では話速を考慮しない手法が提案されているが、ここでは話速に依存しない特殊拍の判別を目的とする。

 まず話速によっていかに各音の持続時間が変化しているのかを調べた。音声資料としは、メトロノーム・ビートによって話速を制御して発声したものを用いた。メトロノームのビートを利用して話速を定量化し、話速の逆数(時間単位)と各音の持続時間との関係を調べた結果、線形回帰直線で数式化可能と判断した。各音素でも前後音によって持続時間が変動するので、このような文脈を考慮したtriphoneを扱うこととした。しかし、全triphoneの数式を求めるためには非常に大量のデータ処理が必要となるので、先行音と後続音の影響を別々に調べ、これらの影響を線形的に扱うこととした。

 これらの数式を利用して、発声内容を既知とした場合、その発話区分の話速を推定する手法を提案した。観測した発話区分の持続時間をその発話区分を構成する各triphoneの持続時間数式の和と定義し、この等式を解くことで話速を求めるという手法である。推定した話速の値から逆に各triphoneの持続時間の予測値を推定することも出来る。

 このような数式関係を利用して、話速を考慮した特殊拍判別手法を提案した。この手法は、目標となっている音節が特殊拍を含むか否かの2つの仮定に基づく。各仮定において、話速を推定し、その話速値から目標音の持続時間を予測し、予測値と観測値との距離を求める。距離の小さい方を選択するという手法である。

 この手法によって、よい判別率で話速無依存の特殊拍判別が得られた。比較対象として、発話区分の持続時間をモーラ数で割るという話速推定を用いた結果、提案した手法の優れた性能が示された。

モーラ・リズム

 前課題の特殊拍判別とも関連があるが、各音素の長さを制御することでリズムが成立され、リズムが崩れた発声は不自然となるので、リズムの発音教育も重要である。ここでは音声信号からリズム・パターンを抽出することを目的とする。

 日本語はモーラリズム言語と言われ、モーラ単位で規則的に構成されて発声されたものが、聞き手にモーラ等時性の感覚を与えることを示す。このような観点から音の持続時間に関して多くの研究がされて来たが、モーラ等時性の感覚を与えるにも関わらず、音響的に測定されるモーラ長には明確な等時性が現れないことが示されている。本研究では、モーラ等時性が音響的な面からいかに観測可能かを調べた。

 実験では等時性の基本となるメトロノーム・ビートに合わせて発声させたものを分析した。音響的に観測可能な3つの点(母音開始、子音開始、破裂開始)とメトロノーム・ビートとの距離を測った。その結果、ビートの位置が子音開始よりも、破裂・母音開始に近かったことが観測された。つまり、破裂・母音開始のパワーの立ち上がり部分がリズム感覚に重要と考えられる。なお、等時性はモーラの基本構造であるCVよりも、VC単位で実現されていることが言える。ただし、摩擦音の場合は、ビート位置が母音開始には近いが、多少の距離が観測される場合があった。この場合は、他の動的な音響的特徴も考慮すべきである。

ピッチ・アクセント

 日本語には個々の単語は固有のアクセント・パターンを有し、同じ音素系列の単語であってもアクセントにより異なった意味を持つので、これらの発音教育は重要である。過去の研究では単語のアクセント学習システムが開発されているが、本研究では文レベルの発音教育を目指し、アクセント句のアクセント型判別を目的とする。

 本手法の特徴は、FOパターンをそのまま扱うのではなく、モーラ単位ごとに代表的なFO値(以降、FOmora)を抽出することである。単語のアクセント型モデルではFOの平均値(avg)がFOmoraとして扱われたが、特に1型の場合、第2モーラのFOmoraが、第1モーラのよりも高く抽出されていた。そこで、人間が知覚するピッチはモーラの終端側のターゲット値ではないかという仮説をたて、FOmoraの候補として、1次回帰分析によって求められるFOのターゲット値(tgt)も考慮した。また、リズムもアクセントの知覚に影響する可能性も考慮して、CV単位とVC単位についても検討した。なお、モーラごとのピッチの動きをモデル化するため、隣接モーラの対数FOmoraの差として、FOratioという変数を定義した。

 分析用のデータベースとして、人間によって各アクセント句のアクセント型がラベル付けされたものを用いた。各FOmora候補において、アクセント型別にFOratioの系列の分布を求めた。これらの分布の視察により、全体的にはFOmora(tgt ; VC)が1型と2型の判別において、最も人間の知覚に近い結果を示した。

 求められた分布を利用して、アクセント型とアクセント句長別にGaussian Mixture Model(GMM)を構築した。モデル学習としてデータベースの1部を使用し、残りは評価用に使用した。人間によってラベル化されたアクセント型を正解としているので、システムによる認識率は人間の知覚との一致率に対応する。結果としては、FOmora(tgt ; CV)とFOmora(avg ; VC)が78%程度で最もよい認識率を示している。期待されていたFOmora(tgt ; VC)は67%の認識率となったが、これはターゲット値の求め方に問題があると考えられ、1次回帰以外の方法も検討すべきだと考えられる。また、アクセント句の直前のFO値も適切にモデルに追加すれば、認識率は向上すると考えられる。これらは今後の課題として残される。

イントネーション

 イントネーションは統語や談話といった情報の伝達のみならず、発話の様式によって変化し、意図の伝達にも重要である。日本語では特に文末・句末でのイントネーションによって、文の意味・役割が変化し、礼を失した表現になる場合もあるので正しいイントネーションの発音教育も意義ある課題である。

 本研究では6種類のイントネーションについて、文末の音響的特徴と知覚された印象との関連を調べた。音響的特徴としては、文末の持続時間(dur)、平均モーラ長(mora_dur)、先行フレーズにおけるモーラ数(rel_dur)、FOの傾き(FO_s)、パワーの傾き(pow_s)、と文末内FOターゲットの差分(dFO_t)を用いた。

 音声資料としては、外国人のための日本語教材に付属した音声を使用して、まず、母語話者が6種類のイントネーションを分類出来るかを調べ、83%の識別率が得られた。これは、異なった種類が類似した特徴で実現される可能性を示している。

 被験者同士の結果が一致したものを分析に用いた。各音響的特徴において、イントネーションの種類別に分布を求め、これらを利用したGMMを構築した。同じデータベースで認識を行った結果、80%の認識率が得られた。

 次に、これらの音響的特徴と、人間が知覚可能な特徴との対応付けを行った。ここでは、文脈の影響を防ぐため、非母語話者によって実験を行った。文末のトーンと、先行フレーズに対する強さ、長さ感覚をいくつかの段階のいずれに聞こえるかを判断させた。結果としは、文末トーンはdFO_t変数と、そして長さ感覚はrel_dur変数とよい関連性を示した。しかし、強さ感覚においては、より適切な相対的パワーの表現が必要である。なお、このような知覚的特徴との対応付けは、発音教育システムにおいて、学習者が知覚的に理解出来るフィードバックとして重要だと考えられる。

ピッチ知覚

 前章では、アクセントやイントネーションの知覚において、いくつかの仮説のもとで適当な音響的特徴を提案した。本研究では、アクセント・イントネーションのパターンをより適切に表現するため、ピッチ知覚における音響的特徴との対応を詳細に調べた。

 ここでは、FOmoraの候補として、(avg/tgt ; VC/CV)の他にもパワーによった重み付け(weighted/non-weighted)も考慮した。これは、音声のより強い部分がピッチ知覚に重要だという仮定に基づいている。

 ピッチ知覚を調べる実験として、楽器音(MIDI)のピッチが半音より細かい段階で調整出来るツールを作成し、自然音声から切り出した音節区間を被験者に聞かせて、知覚されたピッチに楽器音のピッチを合わせるよう指示した。被験者同士の知覚したピッチの平均値を人間が知覚した正解ピッチ(FOhuman)として扱った。そして、FOhumanと音響的に求められたFOmoraの候補(avg/tgt ; VC/CV ; w/nw)との偏差を調べた。その結果、FOmora(X,X,nw)に対し、FOmora(X,X,w)の方が小さい偏差を示した。全体的にはFOmora(avg ; VC ; w)とFOmora(tgt ; CV ; w)が最もよい結果を示した。この結果はアクセント型判別タスクで得られた結果と一致し、人間の知覚により近いパラメータを用いてモデル化すれば、認識率も向上すると言える。

 個々の音節についても詳細な分析を行った結果、ピッチの変動によって異なったパラメータがよりFOhumanに近い傾向が見られた。従って、パラメータの組み合わせにより、人間が知覚するピッチにより近い表現が求められると考えられる。

結論

 本研究は日本語の韻律の発音教育システムを構築するため、音声生成や音声知覚の面からさまざまな音響的特徴を調べ、言語的情報との対応をモデル化する手法を提案した。なお、この論文で得られた結果は何らかの加工により、発音教育システムのみならず、音声認識を利用した多くの音声理解や音声対話システムに生かせると考えられる。

審査要旨 要旨を表示する

 本論文は「Japanese Prosody Analysis and its Application to Computer-Aided Language Learning Systems(日本語の韻律解析と発音教育システムへの応用)」と題し、韻律を主体とする日本語発音教育システムへの応用を念頭に置き、特殊拍音素識別、アクセント型・イントネーションタイプ識別手法の開発とそれの基となる人間の基本周波数(FO)知覚特性を調べたもので、全7章からなり、英文で記述されている。また、付録で、実際に構築した単語アクセント型発音教育システムが述べられている。

 第1章は「Background : Current speech processing techniques applied to CALL systems」であって、発音教育に主眼を置いた計算機援用言語学習システム(Computer Aided Language Learning system, CALL system)の内容と一般的な構成を概観し、対象となる音声の特徴と必要となる音声処理技術について述べている。特に、韻律に関連して重要となる特徴量の正規化について整理している。さらに、CALLシステムにおいて学習者に提示する発音修正の媒体と指針について、過去の研究例を参照した上で、その方向性を示している。最後に第2章以降の論文の構成を述べている。

 第2章は「Formulations of phone durations considering speaking rate variations and its application to Japanese double-mora identification」と題し、外国人にとって学習が難しいとされる日本語特殊拍音素の識別手法を開発している。長母音等の特殊拍音素は持続時間が知覚の重要な特徴であるが、単純に長短だけで対応する普通音素との識別を行うと発話速度が変化した場合、精度の高い識別ができない。先行音と後続音の音素長への影響が線形和で表されるとした上で発話速度による各音の持続時間の変化を線形回帰により数式化し、それを基に発話速度を推定して特殊拍音素の識別を行う手法を開発し、実験によりその有効性を示している。

 第3章は「Japanese rhythm : Consideration on isochronal mora timing」と題し、日本語のリズムの基本とされるモーラ等時性について、音響的な面から考察している。等時性を表すメトロノームのビートにあわせて発声した音声を対象として分析を行い、ビート位置が音節開始時点に対応する子音開始時点よりも母音あるいは破裂開始時点により良く対応することを示した上で、モーラ等時性が母音−子音(VC)を単位として実現される傾向にあるとしている。

 第4章は「Japanese pitch accent in sentence level based on FOmora representation」と題し、文音声中アクセント句のアクセント型識別手法を開発している。これは、フレーム毎のFO等を特徴量とする従来の方式と異なり、モーラ毎の代表FO値に着目するもので、対数FOパターンの線形回帰から得られるFOのモーラ内目標値と、隣接モーラFO値との対数軸での差分を考慮した上で、発話による変動をガウス分布でモデル化することにより、高精度の識別結果を得ている。モーラ単位として、従来のCVと前章のVCを考慮し、モーラ代表FO値として、平均値と目標値を挙げて、それらの組み合わせについて詳細な実験的検討を行っている。

 第5章は「Acoustic parameters related to Japanese sentence final intonation」と題し、外国人のための日本語教材に挙げられた6種の文末イントネーションについて、母語話者の知覚能力を調べた上で、文末の平均モーラ長と文全体に対する割合、文末の対数FOパターンの傾きとFO変化値、文末の対数パワーパターンの傾きを特徴量とし、前章と同様のガウス分布のモデル化により80%程度の識別率を達成している。さらに、非母語話者を対象とした知覚実験により、上記のパラメータのイントネーションタイプ知覚における効果を調べ、FO変化値、文末の文全体に対する割合が有効であることを示した。

 第6章は「FO parameters related to human pitch perception for Japanese accent and intonation」と題し、人間のピッチ知覚を良く表現するモーラ代表FO値について、知覚実験により詳細に調べている。これは、楽器(MIDI)音のピッチを半音より細かい単位で調整可能なツールを用意し、モーラ単位の音声のピッチと同一になるように被験者に調整させるもので、得られるMIDI音のピッチを音声ピッチの知覚された値として、第4章の種々のモーラ代表値との比較検討を行っている。その結果、VC単位の有用性を示し、FO平均値とFO目標値の間に適切なモーラ代表FO値が定義されるとしている。

 第7章は「Conclusion and future works」であって、本研究で得られた成果を要約し、将来の課題としてCALLシステムへの応用を述べている。

 以上を要するに、本論文は、日本語音声のリズムとアクセント・イントネーションについて、知覚面を中心に分析し、その結果を基に、発話速度を考慮した特殊拍音素の識別、FOの変化を考慮したアクセント型とイントネーションタイプの識別手法を開発した上で、それを利用した日本語発音教育システムの可能性を指摘している。人間の韻律知覚過程を意識した従来にない発音教育システム構築の指針を与えるとともに、韻律生成・知覚に対する新しい知見を与えるもので、音声基礎、音声処理技術分野の発展に大きく寄与するものであり、電子情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク