学位論文要旨



No 124166
著者(漢字) 鎌谷,研吾
著者(英字)
著者(カナ) カマタニ,ケンゴ
標題(和) EMアルゴリズムとメトロポリス-ヘイスティングスアルゴリズムの漸近的性質
標題(洋) On some asymptotic properties of the Expectation-Maximization Algorithm and the Metropolis-Hastings Algorithm
報告番号 124166
報告番号 甲24166
学位授与日 2008.09.30
学位種別 課程博士
学位種類 博士(数理科学)
学位記番号 博数理第328号
研究科 数理科学研究科
専攻 数理科学専攻
論文審査委員 主査: 東京大学 教授 吉田,朋広
 東京大学 教授 菊地,文雄
 東京大学 教授 舟木,直久
 東京大学 教授 楠岡,成雄
 東京大学 准教授 稲葉,寿
内容要旨 要旨を表示する

本論文では,EMアルゴリズムと,メトロポリス-ヘイスティングスアルゴリズムの二種類のモンテカルロ法の漸近的性質を研究する.これら二つの手法は,ともに単純な計算の繰り返しにより,求める統計量の近似計算をするという共通点がある.

まず最初に,本論文では漸近的という言葉を二種類に用いることに注意する.一つ目の意味は,上記モンテカルロ法の繰り返し計算の回数を大きくしていくという意味である.上記モンテカルロ法の漸近的性質を調べている殆どの既存研究は,この意味での漸近理論である.本論文に置いても第三章は,この意味でのメトロポリス-ヘイスティングスアルゴリズムの収束を扱う.二つ目の意味は,繰り返しの数だけでなく,サンプルサイズも大きくなるという意味である.第一章,第二章ではこの意味での収束を考える.必然的に,後者め意味では,大標本を仮定する.

最初の二つの章では,EMアルゴリズムとギブスサンプリングの漸近的理論の枠組みを作り上げる.ここで,ギブスサンプリングは,メトロポリス-ヘイスティングスアルゴリズムの主要な一種類である.この枠組みの作成には,次のような三つの動機がある.

まず第一に,EMアルゴリズムとギブスサンプリングという二つの歴史のあるアルゴリズムを,新しい意味で正当化することである.EMアルゴリズムについては,そのアルゴリズムの作る数列が,正しく最尤推定量に収束することを示す.これは従来の,サンプルサイズを止めた考え方では難しい.なぜなら,繰り返しの回数を増やすだけでは,一般的には最尤推定量に収束するとは限らず,局所解などに収束することがあるからである.一方で,ギブスサンプリングにおいては,既に繰り返しの回数を増やす考え方で,収束理論は確立されていた.しかしながら,この収束理論はパラメータ空間の淵の部分での性質に強く影響されるものである.一方,今回の収束理論は,ギブスサンプリングのパラメータの真値周辺での性質であり,中央値推定量などパラメータの空間の淵の影響をあまり重要視しない統計量を考えるのであれば,より本質的な収束理論と考えられる.

第二に,EMアルゴリズムやギブスサンプリングに関する,様々な高速化手法の正当化を言うことである.これにはまず,複数のアルゴリズムの比較法を確立することが必要である.従来,EMアルゴリズムにおいての手法の比較は,収束理論の改善は,レート行列という,フィッシャー情報行列と関連するある行列の比較をすることでなされていた.しかし,この比較の正当化は,少々厳密性に欠ける方法でしかなされていなかった.今回の研究ではこのレート行列の比較を正当化し,いくつかのアルゴリズムの比較をおこなった.ギブスサンプリングにおいては,フィッシャー情報行列に関連する行列をもちいて,新しい比較法を確立し,正当化した.この比較法の方が,従来のスペクトル半径を比較する方法より,実用的である.

第三にこれらの新しい漸近理論が,EMアルゴリズムやギブスサンプリングよりも複雑な理論に適用することへの期待である,大標本理論を用いた近似の議論によって,複雑な手法がシンプルな手法に近似され,正当化に役立つことが期待される.たとえばStochastic EMアルゴリズムや,適合的モンテカルロ法に適用できるだろう。

第三章では,繰り返しの数だけが大きくなる場合に,MHアルゴリズムの新しい近似を用いてアルゴリズムの評価と,より良いアルゴリズムの提案をする.ここで,MHアルゴリズムの説明のために,いくつかの記号を定義する.

まず,(Rd,B(Rd))上の確率密度関数p(x)(x∈Rd)をもつ確率分布P(dx)=p(x)dxを考える.このPに関するある統計量,μ(P)の計算が目的であるとする.MHアルゴリズムは,あるシンプルなトランジションカーネルQ.(・)を少し変化させ,Pを不変分布としてもつマルコフチェインの列x1,...,xmを発生させる手法である.このような列が得られたら,その経験分布Pmによってμ(Pm)として近似させる.具体的には,Qx(dy)=q(x,y)dyなるカーネルを用いて,次のようにマルコフチェイン(M(xn);n∈No)を作る.

まずMx0=xとする.次に以下に従って順次数列を作る.

ただし,α(x,y)=min{1,p(y)q(y,x)/(p(x)q(x,y))}である.

この手法によってマルコフチェインは容易に作ることが出来るが,問題は,(M(nx);n∈No)の性質を調べることが比較的困難なことである.トランジションカーネルQがシンプルであっても,(M(nx);n∈No)は複雑なトランジションカーネルをもち,そのためとくに多次元での解析を複雑にしているのである.

ところが,メトロポリスーヘイスティングスアルゴリズムの一手法の,ランジュバン法においては,t-分布のようにp(x)の裾が重い場合には,Qと,(M(nx);n∈No)のカーネルの差が小さい.ここで,ランジュバン法とは,次のようなQを用いる方法である.

この単純なカーネルQの解析に帰着させることで,次のようなメリットがある.第一に,本質的仮定にしぼって,アルゴリズムの正当化が言えることである.従来の多くのメトロポリス-ヘイスティングスアルゴリズムの解析においては,(M(nx);n∈No)のカーネルの複雑さのために,やや強すぎる仮定をおいて,収束性や収束レートの正当性を言うものが多い.しかしながら,この場合はQの解析によって,このランジュバン法の解析に役立てることが出来て,不必要な仮定が要らない.第二に,本論文ではランジュバン法を改善する新しい手法を提案するが,この正当化についても,さほど仮定を増やさずに議論が出来ることである.

実際の数値計算においては,いくつかの例で,提案した新手法の優位性が確認されたが,パラメータの取り方によってはかえってうまく行かない例もある.

本論文の作成にあたっては,修士博士通じて指導して頂いた東京大学数理科学研究科の吉田朋広教授に感謝したい.先生の有益なコメントや,数々の問題点の指摘により本論文は大きく改善された.とくに,独立同分布に限っていた本論文を,より一般的に拡張するようご指摘くださり,これによって論文全体がシンプルに,また一般的になった.

本研究は一部において学術振興会,およびCOEプログラムによってサポートされた.

審査要旨 要旨を表示する

論文提出者鎌谷研吾は、高次元積分およびベイズ統計量の計算に適した、マルコフチェイン・モンテカルロ法の収束に関する理論的な結果を、修士課程のときより研究し、博士課程においてさらに発展させた。マルコフチェイン・モンテカルロ法は90年代以降に発展した分野であるが、普遍的な積分計算法としてその応用範囲は広く、計算機の発達とともにアルゴリズムの開発とその収束に関する理論的な研究が求められている。マルコフチェイン・モンテカルロ法の収束の証明は、その手法の理論的根拠となるため、最も重要な問題といえる。この問題の解決はマルコフチェインのエルゴード性を示すことにあるが、マルコフチェイン・モンテカルロ法においては、相空間が一般の非コンパクト空間であり、その場合のエルゴード性の証明は確率論的に高度なものになる。鎌谷は大学院での研究において、それまで限定的な場合でしか証明されていなかったメトロポリス・ヘイスティングスアルゴリズムのエルゴード性を、ある種の確率論的な新しい評価法を導入することで、極めて一般的な状況で証明することに成功した。この結果と関連する極限定理についてまとめた論文は国際誌に掲載予定である(オンラインではすでに掲載されている)。

マルコフチェイン・モンテカルロ法は統計推測における計算手法として日常的に利用されているが、収束の理論的根拠はほとんどの場合、データ数を固定した下で数値計算アルゴリズムの収束性として扱われている。しかしながら、この様な計算法が必要となるのは、必然的にモデルが非線形な場合であり、その場合の統計手法の理論的根拠は、データ数が大きくなるいわゆる大標本理論でのみ与えられ、実際の応用分野においてもそのような状況が研究の対象とされる。このように、従来の理論は実際と乖離があり、統計的漸近理論の構造がこの分野であまり意識されてこなかったようだが、漸近論に基づく方法によると、アルゴリズムの大域的収束を与えることが可能になり、より現実的かつ実用的な計算法の理論的裏打ちがなされることになる。漸近理論によるブートストラップ法の解明も漸近的方法による成功例だったが、そのような漸近論的アプローチがこの分野ではまだ十分ではない。鎌谷はこのような独自の視点から、EMアルゴリズムやギブスサンプラーの実用に資する、収束に関する研究を行い、新しい結果を与えた。この仕事は、とくにサンプリングスキームの確率過程への収束など、独自の極限定理を与えていて興味深いものである。この研究によって、EMアルゴリズムとギブスサンプラーという伝統的なアルゴリズムの収束が大域的な意味で正当化されたことになり,また、フィッシャー情報行列に関連する行列を用いて、複数のアルゴリズムを比較する実際的な方法を提案した。さらに、この論文が展開した新しい漸近理論はその方法が一般的であるため、EMアルゴリズムやギブスサンプラーよりも複雑なアルゴリズムの漸近挙動の解明に役立つことが期待できる。

マルコフチェイン・モンテカルロ法の適用範囲を広げ、漸近的方法による独自の視点を与えた本論文の意義は大きなものである。よって、論文提出者 鎌谷研吾 は、博士(数理科学)の学位を受けるにふさわしい充分な資格があると認める。

UTokyo Repositoryリンク http://hdl.handle.net/2261/28158