学位論文要旨



No 115224
著者(漢字) 岩野,公司
著者(英字)
著者(カナ) イワノ,コウジ
標題(和) 韻律の統計モデル表現とそれを用いた連続音声認識に関する研究
標題(洋)
報告番号 115224
報告番号 甲15224
学位授与日 2000.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第4719号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 相田,仁
 東京大学 教授 田中,英彦
 東京大学 教授 近山,隆
 東京大学 教授 石塚,満
 東京大学 助教授 ワード,ナイジェル グレアム
内容要旨

 人間の発声した音声を機械で認識させるという音声認識の研究は,機械への-入力手法の確立といった域にとどまらず,意味理解や音声対話,自動翻訳といった高度情報処理システムへの応用が期待される研究分野である.近年,隠れマルコフモデル(Hidden Markov Model:HMM)を中心とした統計的手法の導入とそれに用いる大量のデータの整備により,連続音声に対する認識性能は飛躍的に向上し,より「実用」を目的とした研究が進められてきた.現在,日本語の音声認識器として約4万語彙の連続音声ディクテーションシステムが製品化されるようになり,その認識度は95%以上と報告されている.しかし,このような高い精度の認識性能を得るためには,入力音声に対し文法や語彙の制限を設ける必要があり.これらへの対処が連続音声認識の一課題としてあげられている.具体的には,文法制約の緩い話し言葉の認識,あるいは登録語彙以外の語(未知語)への対処などがそれにあたる.

 一方,人間の発する音声は,母音や子音といった音声の音響の違いを反映する「音韻的特徴」と,単語のアクセントや文のイントネーションといった「韻律的特徴」を有している.現在までの音声認識技術においては,もっぱら音韻的特徴のみが利用され,韻律的特徴はむしろ性能を劣化させるものとして排除される傾向があった.しかし,韻律的特徴が人間の音声知覚過程において重要な役割を果していることは明らかである.したがって,より高い水準の音声認識を行うためにはこの特徴を利用することが不可欠であり,そのためには,韻律から高い精度で認識に有効な情報を抽出する必要があろう.

 そこで本論文では,日本語を対象とした連続音声認識に対し,韻律情報を利用することでその性能の向上を目指す一連の研究として,1)韻律的特徴として特に基本周波数F0。パターンに着目し,その高性能な統計的モデル化手法を提案し,2)そのモデルを利用した高精度な句境界検出法の提案を行い,最終的には,3)提案した句境界検出法を,語彙や文法といった制約範囲外の入力への対処手法の一つである「語彙制約なし音声認識(タイプライタ型音声認識)」の性能向上に利用する手法の提案を行う.

 韻律的特徴は話者や発話ごとの特徴量のゆらぎが大きいため,そこから高い精度で認識に役立つ情報を抽出するためには,そのゆらぎに対処した韻律モデル化を行う必要がある.現在,音韻のモデル化に中心的に用いられている統計モデルHMMは,特徴量の確率分布を学習から得ることでゆらぎを表現することが可能であり,かつ多量のデータに対するパラメータの学習アルゴリズムが確立しているといった利点を持っている.そこで,このHMMを用いて韻律を統計的にモデル化することを考える.その際,音韻的な情報が全く未知という条件では,韻律的特徴は10ms程度の短い固定時間(フレーム)幅ごとに特徴が抽出され,様々な韻律的イベントのモデル化に利用されることになる.しかし,韻律における超分節的な特徴は広い時間範囲に渡って緩やかに現れるものであり,フレームといった短い時間単位では,その性質が捉えにくくなることから,イベント抽出性能が劣化するおそれがある.特にHMMは,局所的には定常であるが全体的には非定常な信号を表現するのに適しているモデルであるため,フレーム単位で特徴量を扱ってしまうと,韻律の広い時間範囲で現れている非定常な性質が捉えにくくなりHMMが効果的に機能しなくなってしまう.そこで,このような点を考慮し,認識結果として出力される音韻の境界情報を利用するものとして,HMMによる効果的な韻律モデル化手法「モーラ遷移確率モデル」を提案する.この手法では韻律的特徴を扱う単位として,フレームより長い時間長を有する「モーラ(拍)」を採用する.具体的には,入力音声のF0パターンを音韻境界情報を利用してモーラ単位で切り分けパラメータ化し,それを韻律的なイベントに対応したHMMへの入力とするもので,モデル内の状態遷移がモーラに同期して生起するためこの名前がつけられた.この「モーラ遷移確率モデル」は他にも,1)音韻境界の情報を利用しているため,得られる結果が音韻情報に束縛されており,音韻処理との融合が容易,2)学習データなどのデータサイズが小さい,3)F0の観測されない無声部の扱いが容易,といった多くの利点を持っている.

 次に,この「モーラ遷移確率モデル」を用いた2種類の句境界検出手法を提案する.一つ目の手法は,すべてのモーラ境界について,前後数モーラの窓を用いてF0パターンを切り出し,その区間内の各モーラに対してF0パターンの形状から11種類のコードを割り当て,そのコードの系列を当該モーラ境界が句(文節やアクセント句)境界か否かを表すモーラ遷移確率モデルに入力して照合をとり,句境界の判断を行うものである.二つ目の手法は,アクセント句境界の検出に特化した手法で,アクセント句そのものをアクセント型別にモーラ遷移確率モデルでモデル化する(アクセント句モデル).入力音声のF0パターンに対し,モーラごとに先述の形状のコードと,直前のモーラのF0パターンとの上下関係の度合を示す昇降のコード(同じく11コード)の2つを割り当て,得られた入力音声全体のコード系列をアクセント句モデルの入力とし,句の連鎖を表現した文法(言語モデル)とあわせて照合をとることで,入力音声のアクセント句の並びが推定され,その句の連結部分を句境界として検出するものである.この2つの手法を,アクセント句境界の検出実験によって比較を行ったところ,男性話者1名(MYI)による503文を学習データとし,実験データには学習データ中の50文を用いたclosed実験において,後者の性能が前者のものに比べ,境界正解率(正しく境界・非境界を判断できたモーラ境界数/総モーラ境界数)で約4%良好であった.そこで,この後者の手法を以後の認識への利用手法とし,より詳しい境界検出性能の評価を行った.後者の句境界検出システムの構成図を図1に示す,正解境界位置より±100msずれて検出された境界は正解とし,句境界検出率Rd,挿入誤り率Riを以下のように定義する.

 

 このときアクセント句境界の総数をNbou,正しく検出した句境界数をNcor,挿入誤り数をNinsとしている.男性話者2名(MYI,MHT),各々500文を発声したデータを用い,そのうち450文を学習データ,50文を実験データとして句境界検出実験を行ったところ,言語モデルにアクセント句bigramを用いたとき,句境界検出結果は特定話者実験でRd=約77%,Ri=約15%,2話者間の不特定話者実験でRd=約76%,Ri=約18%となった.従来までの(日本語音声を対象とした)句境界検出手法では音韻境界を用いず,フレームを単位として処理を行っているものがほとんどであるが,それらの性能と比較を行ったところ,この結果が良好な性能を示していることがわかった.また,本実験においても比較のため,モーラ境界情報を用いずにフレームを単位として同様の実験を行ったところ,話者MYIの特定話者実験においてRd=約52%.Ri=約99%という,大きな性能劣化が観測された.これらの比較結果は,モーラを単位とすることの効果を示す結果である.

図1:アクセント句のモデル化による句境界検出システムの構成図

 最後に,上記のアクセント句境界検出システムを,未知語入力への対応手法の一つであるタイプライタ型音声認識器の認識性能の改善に利用する手法を提案する.タイプライタ型認識部は,辞書中にモーラが登録され,モーラのbigramを言語モデルとしているモーラ・タイプライタである.このような認識器を2段用意し,その間に挟まれる形で,上記のアクセント句境界検出器を融合する(図2).入力音声は,前段の認識部で一度モーラ系列に変換され,結果として得られるモーラの境界情報を利用して句境界の検出を行う.後段の認識器では,句境界によって切り離された音声区間それぞれについて再認識を行い,まとめて最終的な認識結果とする.前段の認識器でのモーラbigramには文章全体のモーラ遷移を考慮したものを用意するが,後段の認識器ではアクセント句の内部のみでおこるモーラ遷移を考慮したbigramを利用することになる.つまり,後段のbigramでは句境界をまたがるようなモーラ遷移が現れないため,前段のbigramに比ベパープレキシティが下がり,認識性能が向上するものと考えられる.実際に,先述の男性話者2名の発声 500文に対し,450文を学習データとして構築したbigramの実験データ50文に対するテストセット・パープレキシティ(モーラ単位)を前段・後段で比較すると,前段で約41,後段で約29となり,約70%に減少する.同じデータを用いた特定・不特定話者での認識実験を行った結果,前段と後段の間で最高で約2%の性能向上が確認された.また,本融合システムと同様の構成で,日本人の姓名認識をタスクとしたタイプライタ型認識器も作成し,姓名間の句境界を利用することで,同様の認識性能の向上が得られている.

図2:タイプライタ型認識器とアクセント句境界検出器の融合

 現在,日本語音声認識の後処理段階で韻律を処理し,句境界の検出を行おうとする研究は非常に稀である.本論文で提案した句境界検出手法は,認識結果の音韻的情報をあわせて利用することで韻律処理性能が向上することを示しており,その点において有意義な報告ができたものと考えている.また,タイプライタ型認識に韻律情報を利用した研究は世界的にもほとんど例がない.その点においては,日本語連続音声認識に対する韻律利用手法の一つの新たな指針を示すことができたものと考えている.

審査要旨

 本論文は「韻律の統計モデル表現とそれを用いた連続音声認識に関する研究」と題し、日本語の韻律的特徴(基本周波数パターン)を確率統計モデルで表現する手法を提案した上で、それを利用して統語境界検出、アクセント型認識を行うとともに、連続音声認識に適応して有効性を立証したものであって、全7章からなる。

 第1章は「序論」であって、本論文の目的が、従来、積極的に利用されていなかった韻律的特徴を音声認識に用いる有効な手法を開発することにあるとした上で、第2章以降の論文の構成を述べている。

 第2章は「韻律情報の自動音声認識への利用」と題し、従来、韻律的特徴が音声認識にどの様に利用されてきたかを、詳細に述べている。その上で、統語に対応した韻律の情報を利用する一般的な手法が開発されていないのに対し、本論文では、これに積極的に取り組み、最終的に語彙制約なし音声認識に韻律を利用する手法を開発するとしている。

 第3章は「日本語連続音声における韻律を利用した句境界検出」と題して、句境界検出に焦点を絞って、ヒューリスティックな手法から隠れマルコフモデル(HMM)を利用した手法までの従来の研究を紹介し、それぞれの問題点を指摘し、本論文のモーラ遷移確率モデルへの導入としている。

 第4章は「モーラ遷移確率モデルによる韻律の統計モデル化」と題して、連続音声の基本周波数パターンをモーラ毎のパターンに区分することによって得られるモーラ基本周波数パターンを形状コードと昇降コードによって離散表現し、その遷移をHMMによって表現するモーラ遷移確率モデルを提案している。この、モデルの特徴は、音韻特徴と比較して広い範囲にわたる韻律的特徴を、モーラという発声の基本単位によって表現することにある。

 第5章は「モーラ遷移確率モデルによる句境界検出」と題して、第4章で提案したモーラ遍移確率モデルによってアクセント句の基本周波数パターンを表現し、その境界を検出する手法を開発している。アクセント句境界を直接表現する場合と、アクセント句をアクセント型毎に表現する場合を比較し、後者の方が優れているとしている。最終的に、音声認識によって得たモーラ境界を利用した場合、7割以上の検出率を得ている。これに対し、フレーム単位で韻律を表現した場合は、6割弱の検出率であった。また、アクセント句をアクセント型毎に表現した場合、アクセント型の認識が同時に行えることを指摘している。

 第6章は「語彙制約なし音声認識への句境界情報の利用」と題して、モーラ遷移確率モデルにより検出したアクセント句境界の情報を語彙制約なしの連続音声認識に利用することを行っている。アクセント句境界検出と連続音声認識の融合システムでは、音声認識を2段で行っており、1段目では韻律的特徴を利用せずに認識を行い、そこから得られるモーラ境界情報を利用してモーラ遷移確率モデルによるアクセント句境界を行った後、それを用いて2段目で再度認識を行う。実験の結果、数%のモーラ認識率向上が得られ、韻律的特徴を音声認識に利用する有効性が示されたとしている。さらに、同様な構成で(未知語であると仮定した)氏名の認識を行い、認識率の向上を得ている。

 第7章は「結論」であって、本研究で得られた成果を要約し、将来の課題について言及している。

 以上を要するに、本論文は、日本語の韻律的特徴の確率統計モデルとして、モーラ単位での基本周波数パターンの遷移モデルを新しく提案した上で、それを用いて連続音声のアクセント句のアクセント型認識と境界検出を従来になく高い精度で行うとともに、境界検出結果を連続音声認識に適応して、韻律的特徴の利用が認識率の向上に効果があることを立証したものであって、情報工学に貢献するところが少なくない。

 よって、本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク