内容要旨 | | 人間の発声した音声を機械で認識させるという音声認識の研究は,機械への-入力手法の確立といった域にとどまらず,意味理解や音声対話,自動翻訳といった高度情報処理システムへの応用が期待される研究分野である.近年,隠れマルコフモデル(Hidden Markov Model:HMM)を中心とした統計的手法の導入とそれに用いる大量のデータの整備により,連続音声に対する認識性能は飛躍的に向上し,より「実用」を目的とした研究が進められてきた.現在,日本語の音声認識器として約4万語彙の連続音声ディクテーションシステムが製品化されるようになり,その認識度は95%以上と報告されている.しかし,このような高い精度の認識性能を得るためには,入力音声に対し文法や語彙の制限を設ける必要があり.これらへの対処が連続音声認識の一課題としてあげられている.具体的には,文法制約の緩い話し言葉の認識,あるいは登録語彙以外の語(未知語)への対処などがそれにあたる. 一方,人間の発する音声は,母音や子音といった音声の音響の違いを反映する「音韻的特徴」と,単語のアクセントや文のイントネーションといった「韻律的特徴」を有している.現在までの音声認識技術においては,もっぱら音韻的特徴のみが利用され,韻律的特徴はむしろ性能を劣化させるものとして排除される傾向があった.しかし,韻律的特徴が人間の音声知覚過程において重要な役割を果していることは明らかである.したがって,より高い水準の音声認識を行うためにはこの特徴を利用することが不可欠であり,そのためには,韻律から高い精度で認識に有効な情報を抽出する必要があろう. そこで本論文では,日本語を対象とした連続音声認識に対し,韻律情報を利用することでその性能の向上を目指す一連の研究として,1)韻律的特徴として特に基本周波数F0。パターンに着目し,その高性能な統計的モデル化手法を提案し,2)そのモデルを利用した高精度な句境界検出法の提案を行い,最終的には,3)提案した句境界検出法を,語彙や文法といった制約範囲外の入力への対処手法の一つである「語彙制約なし音声認識(タイプライタ型音声認識)」の性能向上に利用する手法の提案を行う. 韻律的特徴は話者や発話ごとの特徴量のゆらぎが大きいため,そこから高い精度で認識に役立つ情報を抽出するためには,そのゆらぎに対処した韻律モデル化を行う必要がある.現在,音韻のモデル化に中心的に用いられている統計モデルHMMは,特徴量の確率分布を学習から得ることでゆらぎを表現することが可能であり,かつ多量のデータに対するパラメータの学習アルゴリズムが確立しているといった利点を持っている.そこで,このHMMを用いて韻律を統計的にモデル化することを考える.その際,音韻的な情報が全く未知という条件では,韻律的特徴は10ms程度の短い固定時間(フレーム)幅ごとに特徴が抽出され,様々な韻律的イベントのモデル化に利用されることになる.しかし,韻律における超分節的な特徴は広い時間範囲に渡って緩やかに現れるものであり,フレームといった短い時間単位では,その性質が捉えにくくなることから,イベント抽出性能が劣化するおそれがある.特にHMMは,局所的には定常であるが全体的には非定常な信号を表現するのに適しているモデルであるため,フレーム単位で特徴量を扱ってしまうと,韻律の広い時間範囲で現れている非定常な性質が捉えにくくなりHMMが効果的に機能しなくなってしまう.そこで,このような点を考慮し,認識結果として出力される音韻の境界情報を利用するものとして,HMMによる効果的な韻律モデル化手法「モーラ遷移確率モデル」を提案する.この手法では韻律的特徴を扱う単位として,フレームより長い時間長を有する「モーラ(拍)」を採用する.具体的には,入力音声のF0パターンを音韻境界情報を利用してモーラ単位で切り分けパラメータ化し,それを韻律的なイベントに対応したHMMへの入力とするもので,モデル内の状態遷移がモーラに同期して生起するためこの名前がつけられた.この「モーラ遷移確率モデル」は他にも,1)音韻境界の情報を利用しているため,得られる結果が音韻情報に束縛されており,音韻処理との融合が容易,2)学習データなどのデータサイズが小さい,3)F0の観測されない無声部の扱いが容易,といった多くの利点を持っている. 次に,この「モーラ遷移確率モデル」を用いた2種類の句境界検出手法を提案する.一つ目の手法は,すべてのモーラ境界について,前後数モーラの窓を用いてF0パターンを切り出し,その区間内の各モーラに対してF0パターンの形状から11種類のコードを割り当て,そのコードの系列を当該モーラ境界が句(文節やアクセント句)境界か否かを表すモーラ遷移確率モデルに入力して照合をとり,句境界の判断を行うものである.二つ目の手法は,アクセント句境界の検出に特化した手法で,アクセント句そのものをアクセント型別にモーラ遷移確率モデルでモデル化する(アクセント句モデル).入力音声のF0パターンに対し,モーラごとに先述の形状のコードと,直前のモーラのF0パターンとの上下関係の度合を示す昇降のコード(同じく11コード)の2つを割り当て,得られた入力音声全体のコード系列をアクセント句モデルの入力とし,句の連鎖を表現した文法(言語モデル)とあわせて照合をとることで,入力音声のアクセント句の並びが推定され,その句の連結部分を句境界として検出するものである.この2つの手法を,アクセント句境界の検出実験によって比較を行ったところ,男性話者1名(MYI)による503文を学習データとし,実験データには学習データ中の50文を用いたclosed実験において,後者の性能が前者のものに比べ,境界正解率(正しく境界・非境界を判断できたモーラ境界数/総モーラ境界数)で約4%良好であった.そこで,この後者の手法を以後の認識への利用手法とし,より詳しい境界検出性能の評価を行った.後者の句境界検出システムの構成図を図1に示す,正解境界位置より±100msずれて検出された境界は正解とし,句境界検出率Rd,挿入誤り率Riを以下のように定義する. このときアクセント句境界の総数をNbou,正しく検出した句境界数をNcor,挿入誤り数をNinsとしている.男性話者2名(MYI,MHT),各々500文を発声したデータを用い,そのうち450文を学習データ,50文を実験データとして句境界検出実験を行ったところ,言語モデルにアクセント句bigramを用いたとき,句境界検出結果は特定話者実験でRd=約77%,Ri=約15%,2話者間の不特定話者実験でRd=約76%,Ri=約18%となった.従来までの(日本語音声を対象とした)句境界検出手法では音韻境界を用いず,フレームを単位として処理を行っているものがほとんどであるが,それらの性能と比較を行ったところ,この結果が良好な性能を示していることがわかった.また,本実験においても比較のため,モーラ境界情報を用いずにフレームを単位として同様の実験を行ったところ,話者MYIの特定話者実験においてRd=約52%.Ri=約99%という,大きな性能劣化が観測された.これらの比較結果は,モーラを単位とすることの効果を示す結果である. 図1:アクセント句のモデル化による句境界検出システムの構成図 最後に,上記のアクセント句境界検出システムを,未知語入力への対応手法の一つであるタイプライタ型音声認識器の認識性能の改善に利用する手法を提案する.タイプライタ型認識部は,辞書中にモーラが登録され,モーラのbigramを言語モデルとしているモーラ・タイプライタである.このような認識器を2段用意し,その間に挟まれる形で,上記のアクセント句境界検出器を融合する(図2).入力音声は,前段の認識部で一度モーラ系列に変換され,結果として得られるモーラの境界情報を利用して句境界の検出を行う.後段の認識器では,句境界によって切り離された音声区間それぞれについて再認識を行い,まとめて最終的な認識結果とする.前段の認識器でのモーラbigramには文章全体のモーラ遷移を考慮したものを用意するが,後段の認識器ではアクセント句の内部のみでおこるモーラ遷移を考慮したbigramを利用することになる.つまり,後段のbigramでは句境界をまたがるようなモーラ遷移が現れないため,前段のbigramに比ベパープレキシティが下がり,認識性能が向上するものと考えられる.実際に,先述の男性話者2名の発声 500文に対し,450文を学習データとして構築したbigramの実験データ50文に対するテストセット・パープレキシティ(モーラ単位)を前段・後段で比較すると,前段で約41,後段で約29となり,約70%に減少する.同じデータを用いた特定・不特定話者での認識実験を行った結果,前段と後段の間で最高で約2%の性能向上が確認された.また,本融合システムと同様の構成で,日本人の姓名認識をタスクとしたタイプライタ型認識器も作成し,姓名間の句境界を利用することで,同様の認識性能の向上が得られている. 図2:タイプライタ型認識器とアクセント句境界検出器の融合 現在,日本語音声認識の後処理段階で韻律を処理し,句境界の検出を行おうとする研究は非常に稀である.本論文で提案した句境界検出手法は,認識結果の音韻的情報をあわせて利用することで韻律処理性能が向上することを示しており,その点において有意義な報告ができたものと考えている.また,タイプライタ型認識に韻律情報を利用した研究は世界的にもほとんど例がない.その点においては,日本語連続音声認識に対する韻律利用手法の一つの新たな指針を示すことができたものと考えている. |