学位論文要旨



No 111842
著者(漢字) 池田,思朗
著者(英字)
著者(カナ) イケダ,シロウ
標題(和) 情報源の構造推定 : 確率モデルの構造探索アルゴリズム
標題(洋)
報告番号 111842
報告番号 甲11842
学位授与日 1996.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3640号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 中野,馨
 東京大学 教授 甘利,俊一
 東京大学 教授 岡部,靖憲
 東京大学 教授 廣津,千尋
 東京大学 助教授 宮川,雅巳
 東京大学 助教授 石川,正俊
内容要旨

 近年,計算機の進歩に伴い,音声認識や画像認識を行うシステムが作られ,実際に用いられるようになってきた.このようなシステムでは,音声や画像といった曖昧な対象を表現するために,確率モデルや神経回路網モデルのような数理モデルを用いることが多い.その理由は,これらの数理モデルが,その構造とパラメタによって定まる様々な自由度を持っており,それによって曖昧さを持つ様々な対象を表現できるからである.

 したがって,認識システムの性能をあげるためには数理モデルの自由度である構造やパラメタを対象に応じて適切に設定する必要がある.自由度のうちパラメタの推定には,統計学に基づく手法があり,それぞれの確率モデルや神経回路網モデルに対して実行が可能である.確率モデルに対しては,最尤推定を行なうのが有力な手法の一つであるし,神経回路網モデルでは,誤差や尤度をエネルギー関数として定義し,誤差逆伝搬法などを用いてパラメタを推定できる.

 一方,もう一つの重要な部分を占めるモデルの構造の決定法については,全てのモデルに適用できる手法がない.現在用いられているシステムでは,設計者の経験に基づき,試行錯誤的にこの問題を解決していることがほとんどである.この問題は統計学の分野で研究されているモデル選択にあたり,その議論に基づき,解決できるはずである.モデル選択ではモデル選択規準によってモデルの良さを定義し,候補の中からどれが良いかを選び出すことになる.ただし,モデル選択で扱うのは線形回帰モデルなど比較的単純な確率モデルであり,音声認識で用いられるHMM(隠れマルコフモデル)や神経回路網モデルなどの隠れた確率変数を持つモデルでは,その候補の数が非常に多く,パラメタ推定にも時間がかかるため,そのようなモデル選択を現実には実行できない.モデル選択と合わせて,どのようにモデルを用意していくかも議論する必要がある.

 本論文では,HMMなどの隠れた変数を持つ確率モデルに対し,徐々にパラメタを増やしていき,モデルの構造を複雑にしていき,その都度モデル選択規準に基づいてモデルを選択するアルゴリズムを提案する.本論文で提案するこのアルゴリズムを,確率モデルの構造探索アルゴリズムと呼ぶことにする.ここで構造を変化させるとは,パラメタを付け加えていくことにあたる.適切なパラメタを順に加えていくことができれば,モデル選択で様々な構造のモデルを用意しておく場合に比べ,パラメタを推定するモデルを減らすことができ,結果として効率よく構造を推定できることになる.

 また,得られたデータのみから構造を推定するのには限界がある.人間は教師と対話でき,情報を新しく得られる場合,素早く学習ができる.本論文では,このように推定の対象である情報源とモデル側とがデータのやりとりを行えるような場で,どのようなデータを集めるのが隠れた構造を推定する上で効率的か,またそのデータを用いてどのように構造を決定すれば良いかについても一つのアルゴリズムを提案した.以下,本論文の構成に沿って本研究の概要を述べる.

 まず第1章「はじめに」では,本研究の背景及び目的について詳しく述べる.

 第2章「隠れた変数をもつモデル」では,本論文で提案する構造探索アルゴリズムを適用する対象である,隠れた確率変数を持つモデルについて述べる.隠れた確率変数を持つ確率モデルには,混合分布や,隠れマルコフモデル,潜在構造をもつ対数線形モデル,さらに,一部の神経回路網モデルなどが含まれる.まず,そのようなモデルが一般的に持つ性質を述べる.次に,このようなモデルのパラメタ推定に用いられるEMアルゴリズムについて述べる.隠れた確率変数がある場合,最尤推定によって直接パラメタを推定するのは難しい.そこで,EMアルゴリズムと呼ばれるアルゴリズムを用いて最尤推定を求める.EMアルゴリズムは甘利らによって研究されている情報幾何学を用いて幾何的な解析を行なうことによって分かりやすく解釈できる.この幾何的な解釈についても述べる.

 第3章「情報源の構造推定アルゴリズム」では,提案する構造探索アルゴリズムと,モデルと学習の対象である情報源との間でデータをやりとりしながら学習をして行く学習系について述べる.

 構造探索アルゴリズムでは,その情報幾何的な解釈が重要であることから,まず,情報幾何学について,その一部を説明する.甘利らの研究の結果を示し,そこで用いられる計量と内積について述べる.これに基づき,提案するアルゴリズムを述べる.アルゴリズムではEMアルゴリズムの情報幾何的な解釈が重要な部分を占めており,これもあわせて説明する.また,アルゴリズムの直観的な理解を明かにするため,その確率分布の構造が比較的単純である線形回帰モデルを用いてアルゴリズムの解釈を述べる.また,既に論文として発表した,HMMに対するアルゴリズムの形(1993)についてもここで述べる.

 さらに第3章ではモデルが情報源とデータのやりとりをしながら学習を行う系について行った試みについて述べる.ここでは,計算機上で行った簡単な図形認識実験を加えて示す(1995).これは,あらかじめ得られている訓練用データのみではなく,新たにデータを集められる状況にあたる.実際に人間が何かを学習する場合でも,教師に分からない点を直接聞きながら学習を行えば,より早い学習ができるであろう.このような状況での学習については十分な議論は見当たらず,本論文で提案するアルゴリズムは,全く新しい学習系について論じていると言える.

 続く第4章「実験」では構造探索アルゴリズムを実際の確率モデルに適用した結果について詳しく述べる.まず,潜在構造を持つ対数線形モデルを用いた実験について述べる.この実験の結果,本アルゴリズムの有効性が示された.さらに,HMMに対して本アルゴリズムを用い,実際の音声データを用いて音素認識実験を行った結果(1995)について述べる.音声データはATRの音声データを用い,音声処理としては,一般的なシステムで用いられているものとさほど差のない手法を用いた.一般のシステムでは,全ての音素に対して設計者が試行錯誤で得た構造のHMMを用いて認識を行うことが多い.一方,本論文では,本アルゴリズムを用い,各音素のモデルを別々に構成することになる.その結果,構造を固定して行う実験に比べ,良い認識率をあげることができた.これは本アルゴリズムの有用性を実際のデータで示したものである.

 第5章「考察」では,本論文の総括を述べる.本研究では,認識システムで用いられる確率モデルの設計の自動化を行うためのアルゴリズムを提案した.その手法として,まず,構造探索アルゴリズムを提案した.これは確率モデルの構造を変化させていき,適切な構造を探索していくアルゴリズムである.モデルの幾何的な解釈に基づき,見えない確率変数を持つモデルにパラメタを追加することによってどのくらい尤度が増すかを予測し,パラメタを追加していく.アルゴリズムを評価する為に,提案したアルゴリズムをHMMに対して用い,実際のデータを用いた音声認識を行った.結果として,構造を固定しておく場合よりも良い認識結果を得た.

 また,データを新たに集められる状況で,モデルが情報源とデータをやりとりし学習する系について考えた.これは,人間が学習するように,対象との間でデータをやりとりする場合を考えた学習系である.具体的には,カテゴリ数と各カテゴリの分布を推定するアルゴリズムを提案した.実験は簡単なモデルを用いて行ったが,機械が発達し,マルチメディア化している現在,このように積極的に対象を利用した学習法を考えていく必要がある.

 今後は,構造探索アルゴリズムについては,その応用の一つである音声認識として,不特定話者に対する実験を行っていくつもりである.また,ニューラルネットを始めとする他のモデルに対してもこのアルゴリズムを適用していく.一方,モデルが情報源とデータをやりとりし学習する系については,簡単な学習法を提案したが,その統計的性質について明らかにし,より効率的な学習法について考察して行く.また,計算機上のシミュレーションではなく,対象を人間にした認識系を構成して行く必要があると考えている.

審査要旨

 本論文は,情報源の構造推定―確率モデルの構造探索アルゴリズム―と題し,五つの章からなる.

 音声認識や画像認識を行う工学的システムでは,曖昧さをもつ音声や画像といった対象を表現するため,確率モデルや神経回路網モデルのような数理モデルを用いることが多い.これらの数理モデルは様々な構造をもち,その構造に応じて調節可能なパラメタが定義される.構造を適切に定め,パラメタを調節することにより,モデルは様々な対象を表現する能力を持つが,モデルを決定する際には,逆にどのように適切な構造を見つけ出すかが問題となる.

 実際の認識システムでは,現在のところ,思考錯誤的に設計者がモデルの構造を定義している場合がほとんどである.これに対し,本論文では,対象の構造をシステム自身が自動的に推定し,適切な数理モデルの構造を決定することを目的としている.この目的のために,本論文ではモデルの構造探索アルゴリズムを提案している.これはモデルの構造を逐次的に変化させ,適切な構造のモデルを探しだそうというものである.また,これとは別に,人間が行うように,モデルと学習の対象との間でデータのやりとりができる状況での学習法についても述べている.

 以下,本論文の構成に沿って本研究の概要を述べる.

 まず第1章では,本研究の背景や位置づけに基づいて,目的や意義について述べている.その中で,統計学のモデル選択におけるアプローチを現実の認識システムの設計に対して用いる際に,本論文で提案するアルゴリズムが有効であることについて述べている.

 第2章では,提案する構造探索アルゴリズムを適用する対象として,隠れた確率変数を持つモデルを考え,それについて説明している.HMM(隠れマルコフモデル)や混合分布に代表されるこれらのモデルが一般的に持つ性質を述べ,次に,パラメタ推定に用いられるEMアルゴリズムについて述べている.EMアルゴリズムは甘利らによって研究されている情報幾何学を用いて分りやすく解釈されるが,その幾何的な解釈についてもここで述べている.

 第3章では,構造探索アルゴリズムを提案し,また,モデルと情報源との間でデータをやりとりしながら,情報源の構造を学習して行く学習系について述べている.

 まず,提案する構造探索アルゴリズムに関係の深い,情報幾何学の一部を説明し,前節の結果と併せて,アルゴリズムを導いている.また,確率分布の構造が比較的単純な線形回帰モデルを用いて,このアルゴリズムの正当性を直観的に明らかな形で示している.また,論文提出者が既に論文として発表している,HMMに対するアルゴリズムの形(1993)についてもここで述べている.

 さらに,モデルが情報源とデータのやりとりをしながら学習を行う系について行った試みを述べている.これに関しては,計算機上で簡単な図形認識実験を行い,その結果を示している(1995).これは,人間が何かを学習する場合のように,対象との間でデータをやりとりできる状況での学習について論じたものである.このようなアルゴリズムはほとんど議論されておらず,新奇性を有していると言える.

 続く第4章では,構造探索アルゴリズムを実際の確率モデルに適用した結果について詳しく述べている.まず,潜在構造を持つ対数線形モデルを用いた実験について述べ,構造探索アルゴリズムが有効であることを示している.次にHMMに対してこのアルゴリズムを適用し,実際の音声データを用いて音素認識実験を行った結果(1995)について述べている.一般のシステムでは,全ての音素に対して同じ構造のHMMを用いるが,本論文では,構造探索アルゴリズムによって音素毎にモデルを構成し,認識を行っている.その結果,構造を固定した場合に比べ,高い認識率をあげたことが示されている.

 第5章では,本論文で提案している構造探索アルゴリズム,そしてシステムが対象との間でデータのやりとりができる学習系について,これらが認識システムの設計の自動化のため有用なアルゴリズムであることを論じ,将来の展望について述べている.

 以上要するに本論文は,認識システムを設計する際,設計者の負担となっていたモデルの構造の決定を,システムが自動的に行うための,理論的かつ実用的なアルゴリズムを提案したものであり,情報工学の分野に貢献するところが大きい.

 よって本論文は博士(工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク http://hdl.handle.net/2261/54521