学位論文要旨



No 124170
著者(漢字) 朝川,智
著者(英字)
著者(カナ) アサカワ,サトシ
標題(和) 音声の構造的表象に基づく単語音声認識に関する研究
標題(洋)
報告番号 124170
報告番号 甲24170
学位授与日 2008.09.30
学位種別 課程博士
学位種類 博士(科学)
学位記番号 博創域第387号
研究科 新領域創成科学研究科
専攻 基盤情報学専攻
論文審査委員 主査: 東京大学 准教授 峯松,信明
 東京大学 教授 柴田,直
 東京大学 教授 相田,仁
 東京大学 教授 伊庭,斉志
 東京大学 教授 廣瀬,啓吉
 東京大学 教授 相澤,清晴
内容要旨 要旨を表示する

音声認識システムは進歩を遂げ,現在では携帯電話やカーナビゲーションシステムなどに搭載されるまでに至った.しかしながら,システムの想定する環境下や非常に整った条件の下では非常に高い認識率を示すが,多様な認識タスク,多様な環境の下では認識性能は劣化する.そして,人間による音声認識能力と比較した場合,その性能には未だ遠く及ばないのが現状である.仮に人間が生涯耳にするデータを認識システムの学習に用いたとしても,現在の音声認識技術では人間の認識性能には遠く及ばないであろうとの予測もなされている.その要因の一つとして挙げられるのが,音声に混入する非言語的特徴の存在である.音声は様々な話者により様々な環境下で発声され,様々な伝送経路を通り,様々な音響機器により収録される.人間が聴取をする場合は,様々な聴覚特性を持つ話者により聴取される.これらのプロセスの中で,音声の物理的実体は様々な形で変形され,例え同じ言語的な情報を持った発話であったとしても,非言語的特徴による変動によって様々に変化する.これらの変動は,人間同士がコミュニケーションを行う際においても,音声認識システムがその発話を認識する際にも,不可避的に混入する変動である.人間はこれらの多様な変動が含まれた音声に対しても非常に頑健に言語的な情報の抽出を行うことができる一方で,音声認識システムの性能はこれら変動に多大な影響を受ける.

従来の音声認識技術は,この問題を解決するために多くの話者の多様な環境による音声データを集め,これらのデータを用いて統計的手法を駆使することにより,不特定話者音響モデルを構築して音声認識に用いてきた.しかしながら,この不特定話者音響モデルを用いても性能を劣化させる話者が必ず存在する.そこで,学習したモデルを入力話者に近づける適応,あるいは入力音声の話者性を変形することにより一定に近づける正規化に関する研究がこれまで様々な形で行われてきた.しかし,これらの何れの技術も,あくまでモデルと入力音声との特性を近づけるだけに過ぎない.そもそも言語的な情報と同時に非言語的特徴までもが含まれる物理的実体に対して,その絶対量を直接的に用いて音声を表現していることがミスマッチを生む根本的な原因であるといえる.その一方で,人間は非常に偏った音声提示環境の下で,様々な音響的な変動に対する対処法を獲得する.例えば,幼児の聞く音声の大部分は両親の声である.更には,対話が自分と相手との音声コミュニケーションで成立することを考えると,人の聞く声の約半分は自分の声であり,偏った音声提示環境が一生続くことが分かる.これは不特定話者音響モデルが構築される何百,何千という学習話者環境とは相反するものである.それにも関わらず音声は人間にとって一番楽なコミュニケーションメディアの一つである.

近年,上記の非言語的特徴を表現する次元そのものを保有しない音響的普遍構造が提案された.これは音声の物理的実体を捨象し,相対関係のみをとらえることによって得られる音声の構造的表象である.このような非言語的特徴による影響を受けることのない音声の物理的表象に基づいて人間がコミュニケーションを行っていることが知覚実験によって示唆されている.そして,音声の構造的表象を用いることで非言語的特徴の違いに対して頑健な音声アプリケーションが可能となると考えられる.本論文では,この音声の構造的表象を用いて,非言語的特徴の違いに対して頑健な単語音声認識の枠組みを構築し,種々の認識実験によりその有効性を検証した.

本論文では,単語音声認識を対象として,一般的で実用的な認識タスクに適用可能な構造的表象に基づく単語音声認識の枠組みを提案した.構造的表象を単語音声認識へと適用することを考えた場合,話者性を効果的に消失させる一方で,その強すぎる不変性のために全く異なる単語が同一と見なされてしまう可能性がある.単語発話を表現する構造間で比較を行う際に不適切な構造間照合を抑制するような制約が必要となる.そこで,特徴量を分割することにより,許容される変換に対して制約を施す手法であるマルチストリーム構造化を提案し,このマルチストリーム構造化に基づく構造的単語音声認識の枠組みを提案した.そして,日本語5母音連続発声系列と子音を含む単語音声データベースである東北大・松下単語音声データベースの2種類の認識タスクに対して単語認識実験を行い,提案手法の有効性を実験的に検証した.本手法は,音そのものはすべて捨てているため,各音素を個別に認識することは不可能である.しかし,単語発話全体をとらえたときに,音のスカラー差,言い換えると発話内での音の動きの情報のみからその単語を識別することが可能であることが実験的に示された.

前述の構造的単語音声認識の枠組みにおいて,最終的な認識結果を出力する識別器の部分は非常に単純であり,性能向上の余地が大いに残されていた.そこで,線形判別分析に基づく高精度な識別器を提案し,更なる性能向上を図った.マルチストリーム構造化を導入することにより,各発話を表現する特徴量ベクトルは非常に高次元なものとなるが,特徴量の高次元性は計算コストの問題だけでなく,識別性能にも多大な影響を与える.提案手法では,線形判別分析を段階的に適用することにより,低次元かつ識別的な特徴量へと変換することが可能となる.日本語5母音系列及び子音を含む単語に対して認識実験を行い,線形判別分析に基づく識別器を用いることで大幅な認識率向上が得られることを確認した.また,これまでの認識実験においては冗長なパラメータとして用いていなかったデルタケプストラムに対して,線形判別分析を適用することによって冗長性を削除し,識別的な特徴量を抽出することが可能となる.認識実験の結果から,線形判別分析を適用することにより,単語認識においてデルタパラメータを有効に利用することが可能であることが確認できた.更に,特徴量を分割した時点で別個のものとして扱っていた各ストリームに対して,その相互関係を考慮するためにストリーム間距離という特徴量を導入し,更なる認識率の向上を図った.最終的に,日本語5母音系列においては従来手法である単語HMMによる認識率を超える性能を示し,子音を含む単語音声の認識では,従来手法には若干及ばないもののほぼ同等の認識性能を示した.

音声の構造的表象は非言語的特徴の違いを消失させた音声の表象手法であり,それらの違いに頑健な音響的照合が可能であることが従来手法に対して優位性を持つ点である.しかし,ここまで行ってきた実験では,日本人成人男女複数名による学習データを用いて,同様の特性の話者による評価データで認識を行っていた.このような認識タスクでは非言語的特徴のミスマッチは小さく,従来の手法でもかなり高い認識性能を示し,構造的表象の有効性を完全には検証できていない.そこで,ケプストラムドメインでの線形変換により多様な話者性を人工的に生成し,意図的に非言語的特徴のミスマッチを生じさせた条件下での認識実験を行い,提案手法の話者性の違いに対する頑健性を実験的に検証した.結果として,従来の音響的実体に基づく手法では声道長が極端に異なる話者の音声に対しては認識率が大きく下がるのに対して,提案手法では非常に幅広い話者性に対して頑健な認識が可能であることが実験的に確認された.

以上論じたように,音声の構造的表象を用いた単語音声認識の枠組みを提案し,認識実験の結果より非言語的特徴に対する頑健性が確かめられた.本表象は,音そのものをとらえる従来の方法論とは全く異なる観点から,音の差に基づいて音声を記述することにより得られる話者不変の音響モデリングである.本論文により,従来とは全く異なる新しい音響モデリングでの音声認識が実現可能であることを確認できた.

審査要旨 要旨を表示する

本論文は「音声の構造的表象に基づく単語音声認識に関する研究」と題し,全九章から成る。音声は発声者の声道形状・サイズ,収録機器・環境によって音響的には様々に変化する。従来の技術ではこれら不可避的な変動に対処するために,1)集めて統計的にモデル化すること,2)各々の場面で対象に合わせること,で対処して来た。本論文ではこれらの方法論とは全く異なる観点からこの問題の解決を試みている。対象とする話者や環境による変動は一般的に時不変であり,静的なバイアス項となる。このバイアス項を数学的にモデル化し,任意のバイアス項に不変な音声の表象を提唱し,それに基づいた音声認識手法を提案,実験的にその妥当性を示している。

第一章は序論であり,本論文の背景・目的・構成について述べている。続く第二章では従来の音声認識システムについて概説している。本論文は特に音声の音響的特徴及びそれを用いた照合方式についての新提案であるので,音声認識システムの中でも音響的特徴抽出部,音響照合部について概説している。更に第三章にて,音声に不可避的に混入する非言語的特徴(話者の年齢や性別,収録機器・環境の違いによる音響的な変化)について説明し,その数学的なモデル化を行なっている。更に,これらの変動に対して従来どのように対処してきたのか,その先行研究についてまとめている。

第四章で,非言語的要因に不変な音声表象として音声の構造的表象について解説している。第三章で行なった非言語的特徴の数学的モデル化に従って,その不変量を導出し,不変量のみを使って音声を表象している。ここでは,微分可能かつ可逆な全ての写像関数に対して不変なる量を導出している。本論文の直接の先行研究となる研究において,孤立単語列に対する音声認識が試みられており,それについて解説している。なお,この構造的表象は古典的な言語学の一分野である,構造音韻論を物理的実装として解釈可能であること,即ち提案法の言語学的妥当性についても触れている。

第五章以降,本論文で提案する新しい技術について詳細に検討している。音声の構造表象を用いた音声認識を考える場合,大きな問題が二つ生じる。一つは「強すぎる不変性問題」と呼ばれるものであり,他方は「高すぎる次元数問題」と呼ばれるものである。本章では前者の解決を図る。非言語的要因に対する高い不変性は,例えば,異なる単語を同一視してしまう問題を引き起こす。これは1)「あ」と「え」の違いも,話者Aの「あ」と話者Bの「あ」の違いも,スペクトル包絡と呼ばれる同一の物理量によって表現されること,2)提案する不変量が微分可能かつ可逆な全ての写像関数において不変となるため,不変性が強すぎること,が原因である。話者の違いにだけに不変な音響照合方式の開発が必要となるが,ここでは,話者変換行列の一実装例に着眼し(帯行列として変換行列を実装),その変換行列に対してのみ不変性を有する音響照合方式を提案した。具体的には特徴量を次元分割し,部分空間へと射影した上で構造表象を構成する。

第六章では,提案手法の有効性を,日本語五母音を並び替えた母音単語音声認識,及び音韻バランス単語音声認識という二つのタスクに対して検討している。両タスクにおいて,特徴量の次元分割は非常に有効に働くことが実験的に示された。しかし,母音単語の場合は従来の方法論と同等の性能が得られたが,音韻バランス単語の場合はまだ性能的には従来の方法論とは開きが大きい結果となった。

第七章にて,第二の問題「高すぎる次元数問題」を,判別分析を二段階に分けて適用する方法を導入することで解決した。更には動的特徴による構造表象,複数の特徴ストリームによる構造間の距離の導入など,種々の改善を図ることで,母音単語の場合は従来の方法論よりも高い性能を,音韻バランス単語の場合も,それに匹敵する精度を示すことができた。即ち,学習条件と評価条件間のミスマッチが少ない場合は,従来法と同等の性能を示すことを実験的に確認することができた。

第八章にて,多様な話者性に対する本手法の頑健性について実験的に検討している。提案手法は話者やマイクなどの非言語的要因に対する不変性を唱っており,ここでは身長を人工的に制御した音声を作成し,それを入力することで提案手法の頑健性について検討した。母音単語,音韻バランス単語ともに従来の方法論ではおよそ不可能と考えられる「高い頑健性」を示すことに成功した。特に母音単語の場合は,ある環境下で構築された提案手法の音響モデルが,学習/評価の条件を揃えて何種類も用意した(従来法による)音響モデルと,常に,同等の性能を示すことができ,話者適応や環境適応という技術を使わずに,常にそれらを駆使した従来法の精度を出すことに成功した。

第九章にて,本研究を総括している。提案する構造表象による音声認識は,従来の音声認識研究が対象としてきた音声の音響特徴とは全く異なる音響特徴を捉え,それに基づく超頑健な音響照合方式を提案している。話者の違いなどの非言語的な音響変動はそもそも時不変な静的バイアス項であるにも拘らず,従来の方法論では,それら静的変動を大量の音声データを集める事で統計的に対処し,個々の話者性をサンプリングに伴うランダム雑音と見なして来た。これは,話者性は時間軸に沿って変わりうるもの,という前提を置いており,事実とは大きくかけ離れている。本論文ではこれらの問題を,音声の音響的相対量を駆使することで解決する方法を提案し,その実用性を示した。と同時に,提案手法が抱える未解決問題についても,それを明確にすることができた。

以上要するに,本手法は従来音声工学が採択して来た方法論,しかも,ほぼ常識となりかけた方法論に対して敢えて疑問を投げかけ,その疑問を解くための一手法を提案しており,情報学の基盤に貢献するところが少なくない。

よって,本論文は博士(科学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク