学位論文要旨



No 214420
著者(漢字) 伊藤,健
著者(英字)
著者(カナ) イトウ,ケン
標題(和) 計算機アルゴリズムと聴覚心理実験によるセキセイインコ音声識別の研究
標題(洋)
報告番号 214420
報告番号 乙14420
学位授与日 1999.09.08
学位種別 論文博士
学位種類 博士(医学)
学位記番号 第14420号
研究科
専攻
論文審査委員 主査: 東京大学 教授 新美,成二
 東京大学 教授 江藤,文夫
 東京大学 教授 桐谷,滋
 東京大学 教授 宮下,保司
 東京大学 講師 菊地,茂
内容要旨 はじめに

 ヒト言語と鳥類の発声は一見全く異なるように見えるが、実は似ている部分が少なくない。最大の類似点は、鳥の歌・鳴き声の一部が学習によって獲得されるという事実である。生物においてある対象を直接調べられない場合のアプローチ法としては、系統発生的な近さであるホモロジー(相同性)に基づくものと、機能的な類似性であるアナロジー(相似性)に基づくものの2種があり得る。セキセイインコは数種類の異なる鳴き声(コール)を持っており、その1つにコンタクトコールがある。これは、鳴き交わしに用いられるため個体識別に関連する可能性があり、また一生の間、学習によって変化する特徴を有する。一緒に飼われたセキセイインコ(ケージメート)のコンタクトコールは、学習により極めて似通うことが知られているが、それでもケージメートは各個体のコールを聞き分けることができる。従って、コンタクトコールをいかに認識しているかについての研究は、様々な基礎研究の糸口となりうる点で興味深いだけでなく、ヒトの音声認識のアナロジーとしての資格を満たすものである。

 ソナグラフの発明以来、動物発声の研究は相対ピッチや持続時間等の単純なパラメータの記載から、より複雑な解析へと移行することが可能となった。ソナグラムにより発声の時間・周波数構造を視覚的に表現することが可能となったからである。しかし、ソナグラムに見て取ることのできる時間・周波数表現の複雑さが逆に障壁となり、客観的手法の開発はなかなか成功しなかった。近年の電算機の性能向上により、特に鳥類の発声を客観的に分析しようとする努力は、着実に成果を収めて来ているが、セキセイインコ自身がコンタクトコールを識別する際に注目するパラメータが知られていないこともあり、ケージメートの似通ったコールを個体別に分類し得た手法の報告は無い。本研究の目的は、(1)まず、動的プログラミング(DPマッチング)等のヒト音声認識アルゴリズムを応用して、セキセイインコのコンタクトコールを自動分類可能な手法を開発すること、またこの際にこれらの手法に相互比較が可能な属性を予め持たせておくこと、(2)これらのプログラムを用いて実際のコールを分類させ、その有効性を調べること[実験1]、(3)さらに鳥自身の分類との比較により、鳥自身がコール識別に際して注目しているパラメータを類推すること[実験2]である。

研究の対象と計算・実験手法

 セキセイインコ成鳥4羽からコンタクトコール(以下単にコールと称する)を録音し、これを対象とした。コールの先頭から2ms毎に、持続3msの音響信号を抽出し、このパワースペクトル列(SPS)を得た。ソナグラムはSPSをグラフ化したものである。SPSの各時点におけるパワースペクトルにおいて、強度順に3つのピーク周波数(f1,f2,f3)を抽出し、ピーク一時間行列(PTM)を得た。コール間比較アルゴリズム(CCM)は、2つのコールを引数に取り、これらのPTMを使用し、コール間の距離を計算するプログラムである。CCMはa)時間軸における直線性(リニアマッチング、相関法)対時間伸縮(DPマッチング法)、b)周波数寛容性、c)1周波数比較対複数周波数比較、の3つの性質を比較する目的でデザインしたものであり、一覧を表1に示す。また、コールを録音した4羽のインコを訓練し、聴覚心理実験を行った。これは、GO/NOGOタスクであり、反応潜時が2つのコールの類似度の尺度となる。聴覚心理学的類似度(PSI)は,反応潜時から計算され、類似度が高い程小さな値を取る。

表1 各CCMの持つ性質を示す。実験1

 方法:アプリオリに設定されるコール組のグループ分けをCCMに行わせた。実験1-1では、ソナグラムの目視によっても容易に区別が可能な、3組(各組がコールを3つずつ含む)のグループ分けを、実験1-2では、目視では難しい2組(各組コール5つずつ)のグループ分けを行わせた。グループ分けの評価には、クラスタ分析および多次元尺度法(MDS)の結果を用いた。まず、各CCMを用いて計算した、全ての組み合わせにおけるコール間距離を入力として、クラスタ木を描かせ、また単調MDSによる2次元の散布図を描かせた。グループ分けの評価は、以下の基準に基づいて行った。ここで、「正しい」分類とは、アプリオリに設定した各コール組に分類されることを指す。評価"good"は、グループ間の分離がはっきりした形で正しく分類されたことを示す。評価"fair"は正しく分類されているものの、グループ間の分離が不明瞭なもので、MDSにおける散布図の目視で判断されるものである。評価"partial"は、1つのグループのみが正しく分類された状態を指す。評価"poor"は、意味のあるグループ分けが存在しないことを指す。

 結果:表2に一覧を示す。さらに、実験1-2にて周波数寛容度の寄与を量的に確かめるために、DP2peakにおいて寛容度を変更してグループ分けに対する影響を検討したところ、寛容度を1/4および2倍とすると、正しい分類が得られなかった。また、DP2peakに1周波数(f3)を追加したアルゴリズム(DP3peak)を試したが、分離度の改善は見られなかった。

表2 実験1における分類の評価。評価partialにおいて、明確に分離されたグループを括弧内に記す。
実験2

 方法:CCMによるコール識別と、4羽のインコ自身によるそれを比較した。使用するコールは、実験1-2と同様、目視で区別が難しい互いに似通ったコンタクトコール4組(各組コール5つずつ)であり、識別の難度はより高い。各CCMによるコール間距離のデータと、鳥の心理実験から得たPSIのデータの間でスピアマンの相関係数を計算し、またそれに対応するp値を得た。

 結果:相関係数のグラフを図に示す。DP2of3が、鳥の知覚に対して最も高い相関係数値(0.424)を示した。

 なお、DP3peakは、これに劣る結果であった。

図 各CCMにより計算されたコール間距離とセキセイインコ自身の聴覚心理実験により得られたコール間距離(PSI)との間の、スピアマンの順位相関数を横軸に示したグラフ。相関のp値を併記する。
考察

 本研究における理想のCCMとは、鳥自身が行うのと同様にコールを識別し、正しく分類する、言い換えれば動物の知覚をシミュレートするプログラムである。実験1において、DP2peakはグループ間の相違が大きいグループ・小さいグループともに正しい分類を行うことができた。これにより、グループ分けに関する事前知識なしで、また視認等において混入し得るバイアスなしで、コールを自動分類する手段の一つが得られたことになる。同様の手法の報告はまれであり、またソナグラムが非常に近い動物発声における成功例は他に報告されていない。しかし、本研究のより重要な部分は、実験2で行った、音声識別における、計算による結果(プログラムによる分類)と聴覚心理実験の結果(鳥自身による分類)との量的比較である。ヒト以外の種における同様の研究は、もちろん鳥類を含め、報告されていない。実験1、2において各CCMの成績を比較することにより、セキセイインコ・コンタクトコールを正しくグループ分けし、さらにセキセイインコ自身の知覚をシミュレートするには、以下の性質が重要であると結論づけることができた。則ち、(1)2周波数の同時比較、(2)時間伸縮、(3)周波数寛容性、である。

 セキセイインコがコールを識別するに当たって注目するパラメータは正確には知られておらず、さらに音声認識に関わる脳内のプロセスに至っては想像の域を出ない。しかしながら、鳥自身のコール識別とより良く相関するCCMの持つ性質が、脳内の認識プロセスと何らかの対応を持つとする考えは、荒唐無稽ではない。1周波数でも3周波数でもなく、2つの周波数を用いるCCMが好成績をあげる事実から、セキセイインコがコール識別において、2つの周波数組を同時に認識している可能性が示唆されるが、これに対応する基礎生理学的報告は存在しない。また、周波数比較における寛容性が重要であるという結果は、予想外であった。セキセイインコは、極めて高い周波数判別能力を持つことが証明されているためである。コール識別における周波数寛容性は、純音の周波数識別とは異なるメカニズムによるのではないかと想像される。一方、順序マッチングと関係を持つと考えられる脳内プロセスの報告は存在する。時間的順序を持つ音の組み合わせに反応するニューロン(CSニューロン)が、ミヤマシトドやキンカチョウにおいて見つかっている。本研究におけるCCMの作成と検証に見られるような、一種のモデル実験は、基礎的な生理実験とうまく組み合わせれば、音声認識の脳内プロセスを解明する近道を提供しうるものであろう。

審査要旨

 本研究は、ヒト言語との類似点を持つ鳥類の発声を烏自身が如何なるメカニズムにより認識するかを知る端緒を得る目的で、動的プログラミング(DPマッチング)等のヒト音声認識アルゴリズムを応用してセキセイインコのコンタクトコールを自動分類可能な手法を開発し、これらを用いて実際のコールを分類させてその有効性を調べ、さらに鳥自身の分類との比較により鳥自身がコール識別に際して注目しているパラメータの類推を行ったものであり、下記の結果を得ている。

 1.ヒト音声認識に用いられることの多い、DPマッチング法を含むいくつかのアルゴリズムを応用し、セキセイインコのコンタクトコールの識別を行う計算機プログラムを作成し、これらのプログラムに、ソナグラムによって容易に識別できるコール・識別が比較的難しいコールのグループ分けを行わせたところ、2つのピーク周波数を用いるDPマッチングプログラム(DP2peak)が最も良い成績をあげた。

 2.さらに心理実験によって得られたセキセイインコ自身のコール識別結果との比較を行ったところ、DP2peakの改良版である2つの代表的ピーク周波数を用いるプログラム(DP2of3)が最も良い相関を示した。

 3.各プログラムによる成績を比較することにより、セキセイインコ・コンタクトコールを正しくグループ分けし、さらにセキセイインコ自身の知覚をシミュレートするには、(1)2周波数の同時比較、(2)時間伸縮、(3)周波数寛容性、の3つの性質が重要であると結論づけることができた。

 以上、本論文は、これまで知られていなかったセキセイインコがコールを個体別に識別するに当たって注目するパラメータについて、強い示唆を与える結果をはじめて示した。これはセキセイインコの脳における音声知覚の基礎的研究の方向付けに貢献し得るものである上、コンタクトコールが生涯変遷することから、アナロジーを経てヒトの音声獲得・聴覚可塑性の仕組みの解明につながる可能性を秘めている論題であり、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク