学位論文要旨



No 111142
著者(漢字) 峯松,信明
著者(英字)
著者(カナ) ミネマツ,ノブアキ
標題(和) 音声を媒体とした情報の受容に関する基礎研究
標題(洋)
報告番号 111142
報告番号 甲11142
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3386号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 廣瀬,啓吉
 東京大学 教授 渕,一博
 東京大学 教授 高木,幹雄
 東京大学 教授 原島,博
 東京大学 教授 田中,良明
 東京大学 助教授 相田,仁
内容要旨

 従来よりディスプレイやキーボードなどを通して行なわれてきた"人間対機械"間の情報交換を,音声を媒体として実現出来ないかと研究が重ねられてきた。音声認識においては,近年の計算機能力の驚異的な発展に支えられて,多くの技術が開発された。しかし,話者/性別による認識能力の差,語彙/統語構造の制限,発話環境の整備,認識速度など,ユーザーに課す負担はまだまだ重い。

 一方,人間に目を向けてみると,音声という絶えず変動している信号を何の支障もなく,しかも,正確に知覚している。当然のことながら「如何なる処理方式を用いているのか?」という疑問が生じる。更に最近では,上述した現在の音声認識技術の限界を憂慮する声もあり,音声処理の唯一のお手本である"人間"をもう一度見直そうという動きがある。

 本研究は,音声を媒体として送信された情報を人間或は機械が受信する場合,各々[どのような処理が行なわれているのか/を行なわせれば良いのか」と言う観点から,両者に対する基礎研究を行なったものである。その内容は大きく

 ・人間による音声の知覚過程の分析とそのモデル化

 ・計算機による音声の認識手法の高精度化

 の2つに分かれる。

 人間の音声知覚過程の分析においては,特に,内部辞書への検索過程に焦点を当てた知覚実験を行なった。以下,音声に含まれる言語的情報を操作した音声を提示し,音声知覚過程への影響を観測した実験について触れる。

 表1に示す5種類の日本語4文節文音声を,各タイプにつき10文ずつ用意する。表1は,文中に含まれる言語的情報量(有/無意味×統語構造の有/無)により,文音声を定性的に分類したものである。次に,これらの音声に対して図1に示す方法で各文節尾を無音置換する(Gating Paradigm)。図中dを増加させながらランダムに文として被験者に提示し,無音部を推定しながら口頭再生してもらい,dと文中単語の正答率の関係をタイプ別に見た。即ち,言語的情報量(の定性的な違い)が文中の単語知覚の早さに及ぼす影響を観測した。

図表表1.提示文音声(4文節文)の定性的分類 / 図1.Gating Paradigm

 図2に文提示時におけるタイプ別の提示長/単語正答率の関係を示す。なお曲線はタイプ毎に最尤推定法を用て累積正規分布に近似したものである。正答率50%に対応する提示長を同定の閾偵()と呼ぶと,タイプ別のは表2の様になる。但し,孤立単語提示時のも同時に示している。図・表より,タイプ番号が増えるにつれて(文提示時のみ),同一提示時間における正答率は下がる様子が観測された。また分散分析結果より,4と5間に有意な差は現れなかった。これは,文法規則を比較的強要しない日本語特有の性質であると考えられる。なお,本実験では"統語的構造は崩れているが意味的には正しい文"は,その定義が困難であったため実験を行なっていない。そのため,意味的情報と統語的情報の交互作用が完全には考慮できておらず,更に検討が必要である。

図2.提示長と単語正解率との関係表2.孤立単語提示時と文提示時における同定の閾値:[msec]

 以上の実験で使用された提示音声は,音響的には定量的可変化が施されたが,言語的には定性的にその属性を変化させるに留まっている。これに対し焦点を談話的情報に絞り,これを実験的に定量的に測定し,談話的情報と音響的情報との定量的相互関係を観測する実験なども行なった。更に,1)音声知覚過程における処理単位,2)長期的/短期的頻度が及ぼす影響,3)意味的関連性が及ぼす影響,4)韻律的特徴が及ぼす影響などを定量的に分析する実験を行ない,図3に示す音声知覚モデルを構築した。

図3.構築された音声知覚モデル

 音声認識手法の高精度化に関する研究では,

 ・優先的に着目すべき音声の音響的特徴を動的に制御した音声認識手法

 ・継続長モデルの高精度化を目的とした学習データのクラスタリング手法の2点からの研究を行なった。前者は音声を工学的に扱う場合,音声から抽出される音響的特徴のどの部分を優先的に処理すべきかと言うHMMやDPと言った認織手法に拘らず存在する,基本的ではあるが非常に重要な問題に対するアプローチである。なお,ここで提案した手法は,知覚モデルの知見を一部導入して考案された手法である。後者は,HMMへ音声の時間構造を組入れる際に利用される,継続時間長モデルの精度向上を目的として考案した手法である。ここでは後者について述べる。

 HMMが持つ根本的問題として,音声の時間構造の記述力の低さが挙げられる。これに対して継続時間長モデルが提案され,広く使われるようになった。しかし,実際に作成された継続長モデルが学習データの時間構造をどの程度正しく表現しているかについての議論はあまり行なわれず,大部分は,最終的な"認識率"と言う形で評価されている。

 そこでまず音素HMM及びその継続長モデルに対して,学習データの時間的構造がどの程度正確に反映されているかを,各音素毎に分析した。数種類の音素における結果を図4に示す。この図の縦軸はHMMが性質の異なるサブグループの和として構成されていると判定された割合(Single Occupancy Rate)であり,各棒グラフのプロック数はそのサブグループ数を示す。即ち高SORかつ複数のサブグループに分割されるHMMにおける継続長モデルは,異なる時間構造を持った複数のサブグループの平均として実現される可能性が高く,そのまま音声認識に利用するのは危険である。そこで図4におけるSOR算出に使用した方法を用いて,学習データのクラスタリングを行なった(図5参照)。なお,学習データのクラスタリングは従来より多くの研究で行なわれているが,スペクトル領域の特徴に基付くものが多く,本研究のようにHMM継続時間モデルが表現する時間構造に基付くクラスタリングの研究例は少ない。

図4.特定話者(MAU)におけるSingle Occupancy Rate図5.本研究で提案するクラスタリング手法

 クラスタリングの結果,音響モデル(HMM)数は26から約40に増加した。またSORに基付いて算出される,学習データ内の時間的構造のばらつきの大きさも有意に減少することが観測された。この再構築されたHMMに対して継続長モデルを導入した場合,その効果が向上することが期待される。この予測を検証するため,切り出し音素の認識実験(話者closed,テキストopen)を行なった。図6にその5人の男性話者に対する結果を示す。但し,クラスタリング前後における,継続長モデル導入による認識誤り低減率と言う形で評価している。図を見て明らかなように,本クラスタリング手法を施すことで,認識誤りをより効率良く減少させることが可能となっている。これは,本手法の有効性を十分に示すものである。

図6.クラスタリング前後における認識誤り低減率
審査要旨

 本論文は「音声を媒体とした情報の受容に関する基礎研究」と題し、音声を媒体とするコミュニケーションを対象として、人間が情報を受容する過程の定式化、および機械による情報の認識手法の高度化に関する研究をまとめたものであって、全10章からなる。

 第1章は「序論」であって、本論文の目的と背景を述べている。まず、機械による音声の認識の高度化には人間における音声知覚過程の解明が重要であることを指摘し、次に、本論文の目的が、心理実験に基づく人間の音声知覚過程の分析と定式化、機械による音声認識の問題点の解明と認識手法の高度化にあるとしている。さらに、論文の概説を行い、その構成を示している。

 第2章は「本研究の背景と位置付け」と題して、論文の具体的内容とその目的を示している。人間の音声知覚に関しては、重要ではあるが従来研究例の少ない単語レベル以上での知覚過程の解明に焦点を当てるとしている。機械による音声認識に関しては、重点を音響レベルの基礎研究におき、具体的には、認識のためのパラメータの検討、統計的モデルにおける時間構造の検討を行うとしている。

 第3章は「人間による音声知覚過程の分析とそのモデル化に関する先行研究」と題して、まず、単語知覚のモデル化を試みた過去の研究例について、その着眼点、得られた結果、問題点を詳細に分析した上で、単梧以上の処理単位の存在と処理手法の違い、辞書検索過程へ影響を与える要因、韻律的特徴の音声知覚に与える効果、言語情報が音声知覚に与える影響に関して研究を進めることの必要性を指摘している。次に、先行研究の結果をもとに、辞書検索に影響を及ぼす要因について、音響レベルから談話レベルまで系統的に考察している。

 第4章は「知覚実験による人間の音声知覚過程の分析」と題して、9種の知覚実験の内容と導かれた仮説について詳細に述べている。すなわち、「長期的頻度が単語音声知覚過程に及ぼす影響に関する実験」では、単語の長期的な頻度の指標として名字の人口分布を取り上げて雑音重畳音声による単語同定実験を行い、長期的頻度の高い辞書項目では低精度の音響的情報量を利用した照合が早めに行われることを示している。「短期的頻度が単語知覚過程に及ぼす影響に関する実験」では、短期的な呈示頻度と単語知覚に要する時間との関係を追唱によって求め、呈示頻度の高い単語は短期記憶に保存され検索が優先的に行われると結論している。「意味的要因が単語音声知覚過程に及ぼす影響に関する実験」では、意味的関連のある単語が先行する場合、該当単語の知覚に要する反応時間が短縮されることを示し、意味的関連性が辞書検索方法に動的変化を与えるとしている。「単語アクセントが単語音声知覚過程に及ぼす影響に関する実験」では、アクセント型を種々に替えた単語音声の知覚実験を行い、1型アクセントの単語同定に与える重要性を指摘している。「単語アクセントの知覚に関する実験」では、既知語と未知語を対象とした単語アクセント型の知覚実験を行い、脳内にアクセント型の辞書が独立して存在する可能性を指摘している。「文節以上の音声処理単位に関する実験」では、文節知覚の精度が文脈の大きさが大きいほど向上することを指摘し、連続音声の処理単位が句、文をも含む複数単位であると結論している。「種々の言語的情報が文音声知覚過程に及ぼす影響に関する実験」では、意味内容の親和性、統語構造の正当性が短文音声知覚に与える影響を音声の部分呈示により調べ、高次の情報を利用し得る環境下では荒い音響的情報によって早めに知覚が行われるとしている。「談話的情報が文音声知覚過程に及ぼす影響に関する実験」では、呈示文の内容の通常性が知覚に与える影響を知覚処理の方向に制約を与えて調べ、辞書項目間の連結を利用した大きな区間での処理が行えない場合、left-to-right処理への移行が起ると結論している。「韻律的特徴が文音声知覚過程に及ぼす影響」では、基本周波数パターンのフレーズ成分とアクセント成分を種々に加工した文音声を呈示して単語認識率と文節認識率の関係を調べ、音声知覚におけるフレーズ成分を利用したグルーピングの可能性を指摘している。

 第5章は「人間の音声知覚過程のモデル化とその工学的応用への可能性」と題して、まず知覚実験で得られた知見に基づいて、複数精度の音響分析と複数単位の照合過程からなる人間の音声知覚過程のモデルを構築している。次に、音響処理、辞書検索処理、言語処理にわけて工学的な認識システムへの応用について検討を加えている。

 第6章は「高品質音声分析合成システムの構築」と題して、知覚実験において構築したLog Magnitude Approximationフィルタを用いた高品質音声分析合成システムについて述べ、実際に、音声の基本周波数パターンを変化させて再合成しても音声の品質が保たれることを示している。

 第7章は「計算機による音声認識に関する先行研究」と題して、まず、音声認識の基本的な手法として動的計画法(DP法)を用いた手法と隠れマルコフモデル(HMM)を用いた手法について述べ、前者は音声の発話変動に関する記述力、後着は音声の時間構造に関する記述力に問題があると指摘した上で、それに対して従来とられた方策を簡単に説明している。次に、従来行われていなかった複数精度の音響的特徴量の利用、時間構造に着目したクラスタリングを行う必要性を述べ、第8章、第9章への導入としている。

 第8章は「音声の音響的特徴表現を動的に制御した認識手法」と題して、まず、音響的特徴の粗さとケプストラム係数との関係を考察し、低次ケプストラム係数を音響的特徴の大局的表現と位置づけた上で、各ケプストラム係数の音素認識への寄与率を調べている。次に、少数の係数のみが認識に大きく寄与していることを指摘し、寄与が低い係数については、規格化を行うことにより全体の認識精度が向上することを示している。

 第9章は「クラスクリングによるHMM継続時間長制御の高精度化」と題して、まず、一つの音素毎にHMMモデルを構築し、そのモデル上で各音声資料の時間構造を見た場合、音素によっては構造に大きな偏りがあることを指摘している。次に、この偏りは、単一HMMでは表現しきれないことを実験的に示し、偏りを指標として一つの音素グループをクラスタリングする新しい視点からの手法を提案している。実際に認識実験を行い、クラスタリングにより認識率が向上することを示している。

 第10章は「結論」であって、本研究で得られた成果を要約している。

 以上これを要するに、本論文は、音声による情報伝達に関して、人間の音声知覚ならびに機械による音声認識の立場から研究を進めたものであって、音声知覚に関しては新しい知見、音声認識に関しては新しい手法を示したものであり、音声コミュニケーションシステムの高度化に大きく寄与するものと考えられ、電子工学に貢献するところが少なくない。

 よって、著者は東京大学大学院工学系研究科電子工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク http://hdl.handle.net/2261/53846