学位論文要旨



No 111154
著者(漢字) 川鍋,元明
著者(英字)
著者(カナ) カワナベ,モトアキ
標題(和) 推定関数の幾何学とその応用
標題(洋)
報告番号 111154
報告番号 甲11154
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3398号
研究科 工学系研究科
専攻 計数工学専攻
論文審査委員 主査: 東京大学 教授 甘利,俊一
 東京大学 教授 伏見,正則
 東京大学 教授 廣津,千尋
 東京大学 教授 岡部,靖憲
 東京大学 助教授 宮川,雅巳
 東京大学 助教授 久保川,達也
内容要旨

 観測されたデータからこのデータのしたがう未知の確率分布を推定する問題を考察する場合,一般的には有限次元のパラメータのみで確率分布が完全に決まるパラメトリックモデル{p(,)}を仮定して,パラメータに関する様々な推定法について議論する.数多くの推定法の中でも漸近的に有効な最尤推定法は推定理論の中心的な位置を占めている.しかし,実際にはデータのしたがう確率分布に関して十分な知識がないことも多く,パラメトリックモデルにおいて仮定した分布形が妥当かという問題が生じる.また,Neyman and Scott[1948]により観測とともに撹乱パラメータが増加するモデル(Neyman-Scott問題)においては最尤推定量が一致性を持たない例が存在することが示され,従来のパラメトリックモデルの枠を越えた無限次元の統計モデルを考える必要性が認識されるようになった.このような経緯から,有限個の興味あるパラメータ以外に,分布の形状を表す無限次元(関数自由度)の撹乱パラメータを含むセミパラメトリックモデル{p(,,)}が導入され.この無限次元の統計モデルに基づいて興味あるパラメータの推定問題が近年盛んに研究されている.

 セミパラメトリックモデルに基づく推定理論は情報量限界に関する研究,局所的ロバスト推定量に関する研究,広域的ロバスト推定量に関する研究と大きく3つに分けられる.本研究は広域的ロバスト推定量,すなわち,セミパラメトリックモデルに属するあらゆる分布に対して一致性を持つ推定量を求めることを目的としている.広域的ロバスト性を持つ推定量を議論するための有用な道具としてGodambe[1960,1976]によって導入された推定関数という概念がある.

 セミパラメトリックモデル{p(,,)}を考える,撹乱パラメータによらない(簡単のためスカラーパラメータとする)の関数で,任意のに対して期待値が0になるものを推定関数という.

 

 ただし,は分布p(,,)に関する期待値を表す.もし,このような関数が存在すれば.i.i.d.観測データ1,…nが得られたときに方程式

 

 の解は広域的ロバスト推定量となる.すなわち,真の撹乱パラメータ0がどのようなものであっても推定量一致推定量である.

 このように,推定関数が存在すれば広域的ロバスト推定量が構成できるが,与えられたセミパラメトリックモデルに対して推定関数を具体的に求めることは容易ではない.これまでは推定関数の存在条件や最適な推定関数の特定というような基本的な問題についてほとんどわかっていなかった.Amari and Kumon[1988]は観測とともに撹乱パラメータが増えるモデル(Neyman-scott問題)において情報幾何学(Amari[1985])の方法を用いて推定関数が解析できることを示し.推定関数に関する諸問題に解答を与えた.さらに,Amari and Kawanabe[1994]はこれを一般のセミパラメトリックモデルに拡張して推定関数に関する以下のような諸問題に明確な解答を与えた.

 1.どのような場合に推定関数は存在するのか?

 2.推定関数全体の集合はどういうものか?

 3.最適な推定関数は何か?

 4.どのような場合に最適な推定関数は有効であるか?

 推定関数を用いた場合の情報量損失はどれぐらいか?

 5.どのようにして最適あるいはそれに近い推定関数を構成するか?

 Amari and Kumon[1988]ではNeyman-Scott問題のように最適な推定関数が撹乱パラメータに依存しない場合を興味の対象であったが,Amari and Kawanabe[1994]で扱う一般のセミパラメトリックモデルにおいては最適な推定関数は撹乱パラメータに依存するため,最適な推定関数uI(,,0)(0は真の撹乱パラメータ)をどのように推定・近似するかということが重要な課題になる.この点に関しては基本的にはBickel[1982,1993]の適応的推定法と同様に観測データより撹乱パラメータの推定量を構成し,そこでの最適推定関数uI(,,)を用いる.ところで,最尤推定法を元にしたBickelの適応的推定法は推定量が真値0に収束すれば興味あるパラメータの推定量は一致性を持ち,情報量の意味で有効であるが.そうでない場合には推定量は一致性を持たなくなる.これに対して,最適推定関数uI(,,)に基づく適応的推定法は一般には情報量の意味で効率が落ちるが,推定量としてたとえ全く違ったものをとっても一致性が保証される.すなわち,推定関数の利点を生かせば,として粗い推定量を用いて実用的なセミパラメトリック推定量が構成できる.

 本論文の目的は,第1にAmari and Kawanabe[1994]の推定関数の幾何学理論を整理し,この理論の本質と数学的な問題点を説明することである(第2章).第2に統計学や工学で実際に使われる具体的な統計モデルに幾何学理論を応用してこの理論の有用性を示すことである.ここでは2次元直線当てはめ問題(第3章)と楕円分布モデル(第4章)を取り上げ.その推定関数とセミパラメトリック推定法について議論した.

 2次元直線当てはめ問題とは直線y=+上にのっている真値に,独立な正規誤差が加わった2次元データ

 

 がn個独立に観測されたとき,この直線(傾きと切片)を推定する問題である.この問題では真値の位置が観測とともに増加する撹乱パラメータとなり,Neyman-Scott問題の1種であるので理論上重要な統計モデルである.また,図像解析の諸問題はこれを一般化した線形(非線形)当てはめ問題として定式化できることが知られており,応用上も重要なモデルである.真値の系列の扱い方には非確率的な数列とみる立場と未知の分布k()からのi.i.d.確率変数列とみる立場があるが.ここでは後者の場合(ミクスチャーモデル)を扱う.幾何学理論を用いて推定関数の集合を特定することができて,最適な推定関数が条件付スコア関数であることがわかる.さらにこの結果,最尤推定法(この場合最小自乗法に一致)が推定関数法になっており,最尤推定量は真値の分布k()によらずに一致性を持つことが示される.しかし,最尤推定法は一般には推定関数法の中で有効な方法ではなく,特に原点を通る直線(=0)を当てはめる場合には真値の平均と分散の情報(推定量)を用いることによって最尤推定法を改良する推定関数法(L*-推定関数法)を構成することができる.L*-推定関数法は真値の分布()が正規分布の場合の最適推定関数法であり,また推定量の漸近分散をリスク関数としたときのミニマックス推定法でもある.

 楕円分布とはd次元確率変数の密度関数の水準面がRd内の楕円体になっているような確率分布,すなわち,

 

 と表されるような確率分布のことである,このような確率分布からなる統計モデル{p(,,)}を楕円分布モデルという.ここで,推定したいパラメータは分布の中心∈Rdおよび,疑似分散行列V(d×d正定値対称行列)である.また,(・)は[0,∞)上の未知の非負値関数であり,関数自由度を持つ撹乱パラメータとする.楕円分布モデルは多変量解析において正規分布モデルの1つの拡張であり,近年多変量正規分布に基づく推測手法を楕円分布モデルに拡張する研究が盛んに行なわれている.パラメータの識別可能性の問題から,これまでの研究ではVの形状を表すパラメータV/trVだけに関するセミパラメトリック推定問題が扱われていて.関数(・)の一致推定量を用いれば(・)が既知であるときのFisher情報量を達成する推定量が構成できることと,真の0(・)を含まない非忠実な有限次元関数族{(・,)}を仮定したときの(疑似)最尤推定量が一致推定量になることが知られている.これに対して本論文ではの分散の存在を仮定して分散行列V全体の推定を行なう.この場合,疑似最尤推定量はVの大きさtrVに関しては一般的に一致性がない.しかし,推定関数の集合および最適な推定関数を計算した結果,疑似最尤推定法の尤度方程式を修正した推定方程式を用いた推定関数法により,Vの一致推定量を作れることが示された.

 推定関数の幾何学理論は,理論面では数学的な問題点を解決してさらに厳密化が必要であり.応用面でも最適な推定関数を近似する推定関数としてどのようなものを用いるのがよいかという問題に関しては個々のモデルに関してさらに工夫が必要である.しかし,本論文で示したように幾何学理論は様々なセミパラメトリックモデルの推定関数を統一的に解析できる有用な方法である.

審査要旨

 本論文は「推定関数の幾何学とその応用」と題し、本文5章と付録および文献表よりなる。統計的推論は、未知の確率構造から生成されたと見なし得る観測データからその背後にある構造についての知識を得るための科学的な方法論である。とくに、データを発生する機構が、分布形既知の、有限個の未知パラメータを含む確率分布の族として指定できるとき、これを統計的モデルと呼ぶ。この状況での研究は統計的推論としてほぼ完成したといってよい。しかし、現実のデータの発生機構はこのような単純なモデル化を許さない場合も多く、分布形が未知であるなど、知りたい情報以外に無限自由度の撹乱パラメータを含む場合の効果的な推論方法が重要になる。本論文は、新しく発展しつつある統計の微分幾何学を用いて、このような状況に適用可能な理論を建設しようとしたものである。

 第1章は序論である。ここで、これから取り扱う確率構造を、無限自由度の撹乱パラメータを含むセミパッラメトリックモデルとして定式化すると共に、これまでの研究を概括している。さらに、推定関数を用いる推論方法の意義を述べ、その情報幾何学との関連を明らかにしている。

 第2章は推定関数の幾何学と題し、推定関数の幾何学的枠組みを一般的に展開している。すなわち、推定関数を用いる推定法がこのような状況では簡便でかつ頑健な方法を与えることを示すと共に、その漸近効率を求める。次いで、無限自由度の枠組みに対応すべく、これまでの有限次元の双対接統の微分幾何学を、ヒルベルト空間をファイバーとして持つバンドル構造に拡張し、そこでの二つの双対な平行移動を定義する。この幾何学的な枠組みのもとで、推定関数はe-平行移動不変なバンドルとして位置付けられる。

 以上の準備のもとで、本論文は次の基本問題の解決を試みる。すなわち、1)推定関数が存在するための必要十分条件は何か、2)すべての推定関数からなる集合を求めること、3)最良の推定関数とその推定効率を求めること、4)推定関数による情報量損失、5)良い推定関数の具体的な求め方、である。本論文は情報幾何学の手法を拡張整備することにより、これらの問題を具体的に解決することに成功したといえる。

 第3章は2次元直線当てはめ問題と題し、前章で展開した一般理論を具体的な問題に適用したものである。2次元直線当てはめ問題とは二つの変量間の線形関係の比例係数を、雑音に乱されたデータから推定する問題で、最小二乗法などの解法がよく知られている。本論文はこの問題に対して、推定関数が存在すること、さらに最良な推定関数を用いれば情報量損失が漸近的に0の推定ができることを示して推定関数法を合理化すると共に、最小二乗法は最尤推定法と同等で、直交化スコア関数を推定関数として用いるものであることを明らかにした。さらに、この方法は漸近的に有効でないという注目すべき事実を明らかにした。これに代わる最良の推定関数は原理的には適応法によって求まる。しかし、この手法はデータからの分布密度推定などの無限次元パラメータ推定を伴うため、理論としては確立できても、実用的手法としては役に立たない。

 ここで、本論文は有限母数を含む推定関数の族と、分布形の中から有限個の特徴量を共有する族とを取りあげ、これらの母数を最適な値に調整することで、きわめて良好な推定関数が容易に得られることを示した。すなわち、本章の問題に対しては未知分布の平均と分散のみを推定してこれを用いることにより、ミニマックスの意味で最良な推定関数が容易に得られることを具体的に示した。また、これが最小二乗法ないし最尤推定法を改善するものであることを示し、数値シミュレーションによって確認している。

 第4章は楕円分布モデルを扱ったものである。楕円分布モデルとは、ある平均値のまわりにある分散行列を持って分布している多次元変量について、その分布形はよく使われる正規分布とは限らず、通常、単峰の滑らかな未知波形として取り払うモデルである。この問題は、1変量の場合の尺度位置母数のセミパラメトリックモデルの多次元への拡張とみなせるもので、多くの研究者が取り扱ってきた。本論文はこの問題に情報幾何学の観点からの解決を与えると共に、有限個の特徴のみに着目する効率の高い実用的推定手順を与えることに成功している。

 第5章は結論と課題を述べたものである。すなわち、関数自由度の不定性を有する問題に対する情報幾何学的方法の重要性を指摘する一方、現代数学的な意味で厳密性を保持した幾何学理論を建設する際の困難として、関数空間上の微分幾何学とファイバーバンドル理論の未成熟を論じている。

 これを要するに、本論文は無限自由度の不定性を有する統計的推論において、推定関数法の微分幾何学的な構造を明らかにし、情報幾何学の体系を拡張すると共に、実用にも耐える新しい統計学の手法を提案したもので、数理工学上貢献するところが大きい。

 よって本論文は博士(工学)の学位請求論文として合格と認められる。

UTokyo Repositoryリンク