学位論文要旨



No 217013
著者(漢字) 田中,研太郎
著者(英字)
著者(カナ) タナカ,ケンタロウ
標題(和) 有限混合分布モデルに対する最尤型推定量の強一致性
標題(洋) Strong consistency of maximum likelihood type estimators for finite mixture models
報告番号 217013
報告番号 乙17013
学位授与日 2008.09.18
学位種別 論文博士
学位種類 博士(情報理工学)
学位記番号 第17013号
研究科
専攻
論文審査委員 主査: 東京大学 教授 竹村,彰通
 東京大学 教授 杉原,正顯
 東京大学 准教授 駒木,文保
 東京大学 准教授 松尾,宇泰
 統計数理研究所 教授 栗木,哲
内容要旨 要旨を表示する

混合分布モデルとは ,いくつかの確率分布を重みを付けて足し合わせて得られる確率分布モデルのことであり ,画像認識・音声認識・遺伝情報解析および神経回路網といった情報科学のさまざまな分野に応用されている .これらの分野においては ,正規分布を混合した混合正規分布モデルがよく使われている .しかし ,混合正規分布モデルを含む混合位置尺度分布モデルにおいては ,尤度関数の非有界性により最尤推定が不可能であるという問題点があることが知られている .例えば ,混合正規分布モデルにおいて ,ある一つの成分の正規分布の平均を ,与えられたデータのどれかの値に等しくなるように設定し ,その成分の分散を 0に近づけていくと ,データのある点における密度関数の高さが無限大に大きくなってしまい ,尤度が発散してしまう .よって ,尤度関数が非有界であるので ,尤度関数を最大化して得られる最尤推定量は存在しないということになる .この問題点を回避するために ,本論文では ,尺度母数に対する制約付き最尤推定量と罰則付き最尤推定量を考えた .また ,それらの最尤型の推定量が ,いくつかの正則条件の下で強一致性という好ましい性質を持つことを示した .ここで ,強一致性とは ,ある未知パラメータに対する推定量が ,与えられるデータの数が無限大に増えていったときに ,真のパラメータに確率 1で収束するという性質のことを指している.

いま, M成分混合位置尺度分布を

で表すことにする .ここで αmは重みであり , fmはある位置尺度分布の密度関数とする. μm ε Rは位置母数を表し , σm > 0は尺度母数を表す .これらのパラメータをまとめて 8で表すことにする.

まず ,制約付き最尤推定量であるが ,これは ,尺度母数 σmの値に対して ,サンプルサイズ nの増加とともに小さくなっていく {cn}∞ n=1という数列を用いて

という制約を付けたパラメータ空間における最尤推定量として与える .このように尺度母数の値を下から抑えれば ,尤度は有界になり ,最尤推定量が存在する .このとき ,ある 0 <d< 1に対して cn = e.ndと置くと ,その {cn}∞ n=1による制約付き最尤推定量が混合位置尺度分布モデルにおいて強一致性を持つことを証明した .次に ,違う形の制約付き最尤推定量として,尺度母数の比の最小値に制約を置いた場合も考えた.

このような制約を付けたパラメータ空間における最尤推定量についても ,ある 0 <d< 1に対して bn = e.nと置くと , {bnn=1による制約付き最尤推定量が混合位置尺度分布モデルにおいて強一致性を持つことを証明した .この設定における制約付き最尤推定量の強一致性は , Hathaway(1985)において未解決問題として取り上げられていたが ,本論文の結果により,肯定的に解決されたことになる.

また ,尤度の非有界性の問題は ,有界になるように尤度に罰則項を付けた罰則付き尤度を使うことでも避けることができる .尺度母数に対する罰則を構成するために ,以下の式を満たす有界な非負関数 s ̄n(y)を考える.

この によって罰則を の逆数として定義する .そして ,罰則付き尤度関数を hn(8; x)= l(8; x) ・ sn(8)と定義する .ここで l(8; x)は尤度を表す .また ,罰則付き最尤推定量を 8.hn = argsup.∈Θ hn(8; x)と定義する .このとき ,いくつかの正則条件の下で ,罰則付き最尤推定量 8.hnが混合位置尺度分布モデルにおいて強一致性を持つことを証明した .さらに ,尺度母数の比の最小値に罰則を入れた場合における最尤推定についても考えた .以下の式を満たす有界な非負関数 r ̄n(y)を考える .

この r ̄n(y)によって罰則を rn(8)= ̄rn( :(1) )の逆数として定める .そして ,罰則付き尤度関数と罰則付き最尤推定量を gn(8; x)= l(8; x) ・ (8)と 8.gn = argsup.∈Θ gn(8; x)で定義する .このとき ,いくつかの正則条件の下で ,罰rn則付最尤推定量 8.gnが混合位置尺度分布モデルにおいて強一致性を持つことを証明した.

以上は全て理論的な話であるが ,混合位置尺度分布モデルにおいては , EMアルゴリズムなどの最尤推定に基づいたパラメータ推定アルゴリズムは ,尤度の非有界性により,そのままの形では破綻してしまうことが多い .本論文では ,混合正規分布モデルにおいて通常の EMアルゴリズムを用いると ,尤度の非有界性により ,分散が 0に近づいてしまう場合があることを数値実験で示した .また ,この問題点は ,制約や罰則を適切に組み入れた EMアルゴリズムを使うことによって改善できる事を数値実験で示した.さらにクロスバリデーションにより ,適切な制約や罰則が選択できることも数値実験で示した.

審査要旨 要旨を表示する

近年のデータ観測技術の発達により,大規模なデータが容易に得られるようになってきた.これにともない,データマイニング,パターン認識,機械学習などの大規模データの統計的解析手法の需要が高まっている.これらの統計的解析において,混合正規分布モデルと呼ばれる確率モデルが広く用いられている.混合正規分布モデルは,正規分布の密度関数を重みを付けて足しあわせたものであり,パラメータを調整することにより,多峰性を持つ確率密度関数など,複雑な確率分布を構成することが可能である.一般的に,確率モデルのパラメータは最尤推定法によって推定することが多い.しかしながら,混合正規分布モデルのパラメータの最尤推定には,推定量の一致性の欠如という重大な問題点があることが知られている.

本論文は"Strong consistency of maximum likelihood type estimators for finite mixture models (有限混合分布モデルに対する最尤型推定量の強一致性)"と題し,混合分布モデルにおける問題点を解決する方法として,制約付き最尤推定量と罰則付き最尤推定量を提案し,その推定量の理論的な性質について解明している.本論文では正規分布のみならず,一般の位置尺度分布族の有限混合分布についての結果を導出している.本論文は,概要から結論の章までを含め全部で5章よりなる.

第1章"Introduction" では混合分布モデルに関するいくつかの問題点を挙げ,本論文で扱う課題の位置づけを述べている.また,論文全体の流れについて説明している.

第2章"Finite Mixture Models"においては,まず, 本論文で扱う混合位置尺度分布モデルについて定式化している.そして,混合位置尺度分布モデルにおいて各成分の位置母数と尺度母数の値が未知である場合に,尺度母数を0に近づける場合を考えると,尤度関数が非有界となることを示し,最尤推定が実行できないという問題点があることを説明している.また,sieve法やベイズ法など,関連する先行研究について概説している.

さらに,最尤推定に基づいた通常のEMアルゴリズムを用いてパラメータを推定しようとすると,尤度関数の非有界性により,アルゴリズムが破綻してしまうことを数値実験により示している.

第3章"Constrained Maximum Likelihood Estimator"では,混合分布の各成分の尺度母数の値を下から押さえるという制約を付けた制約付き最尤推定量を提案している.これにより,尤度関数の非有界性に起因する問題点は回避できる.また, 制約は標本サイズの増加とともに緩められることを想定しており,制約を指数関数的なあるオーダー以下で緩めていったときに,制約付き最尤推定量が強一致性を持つことを証明している.さらに,強一致性はもっと速いオーダーで制約を緩和すると破綻してしまうことも証明している.そして,制約付き最尤推定量を求めるための制約付きEMアルゴリズムを提案し,いくつかの数値実験でその有効性を示している.クロスバリデーションによって制約の強さの値を選択する方法についても論じている.

第4章"Penalized Maximum Likelihood Estimator"では,2つの種類の罰則付き最尤推定量を提案している.1つめは,混合分布の各成分の尺度母数の値そのものに対して罰則を付ける方法である.尺度母数が0に近づくとともに,それに反発するような罰則を付けることにより,尤度関数の非有界性の問題を回避している.そして,罰則が十分強ければ, 罰則付き最尤推定量が強一致性を持つことを証明している.また,この罰則付き最尤推定量を求めるための罰則付きEMアルゴリズムについても考察し,適切な罰則を用いることで, 良い推定値が得られることを数値実験で示している.2つめは, 混合分布の各成分の尺度母数同士の比に対して罰則を付ける方法である.尺度母数の比が0に近づくと反発するような罰則を付けた罰則付き最尤推定量を考えると.それが強一致性を持つことを証明している.また,これら2つの種類の罰則は,標本サイズの増加とともに一致性を保ったまま緩和可能であることも証明している.その結果を使って,尺度母数の比に標本サイズに依存する制約を付けた場合の制約付き最尤推定量が強一致性を持つことも証明している.この制約付き最尤推定量の強一致性については,長いこと混合分布における未解決問題として知られており,本論文の結果により肯定的に解決された.

第5章"Conclusion"では本論文の結果のまとめを与えている.

以上を総合するに,本論文は,統計科学において広く使われる混合分布モデルの推定における重大な問題点に対し,新たな視点から問題の解決方法を提供し,また,その理論的な性質を解明しており,数理情報学の分野の発展に大きく寄与するものである.

よって本論文は,博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク