学位論文要旨



No 216149
著者(漢字) 宇佐美,嘉弘
著者(英字)
著者(カナ) ウサミ,ヨシヒロ
標題(和) 共分散構造を持つ線形回帰の最小2乗推定量の理論
標題(洋) Theory of Least Squares Estimators in Linear Regression with Covariance Structure
報告番号 216149
報告番号 乙16149
学位授与日 2004.12.24
学位種別 論文博士
学位種類 博士(学術)
学位記番号 第16149号
研究科
専攻
論文審査委員 主査: 東京大学 教授 廣松,毅
 東京大学 教授 後藤,則行
 東京大学 助教授 倉田,博史
 東京大学 教授 國友,直人
 東京大学 教授 矢島,美寛
内容要旨 要旨を表示する

 本論文では、線形回帰モデルの誤差項の共分散行列に様々な構造を仮定して、最小2乗法により回帰係数を推定する問題を扱い、最小2乗推定量(LSE)の性質を、理論的・数値的に調べた。ただし、独立変数は定数である場合のみを考えた。

 係数を推定するのに、共分散構造を考慮しない場合は、普通最小2乗法を用いる。もし共分散が既知であれば、一般化最小2乗法で係数を推定する。前者の方法で得た推定量を普通最小2乗推定量(OLSE)と呼び、後者の方法で得たものをGauss-Markov推定量(GME)と呼ぶ。これらの性質については、2つの重要な定理がある。一方は、線形で不偏な推定量の中では、GMEが最小分散を持つことを示したGauss-Markovの定理である。このことから、GMEは最良線形不偏推定量と呼ばれる。他方は、誤差の系列が定常である場合に、OLSEの共分散行列がGMEの共分散行列に漸近的に等しくなるための、独立変数と誤差項に対する条件を示したGrenander-Rosenblattの定理である。

 一般に誤差の共分散は未知であるから、GMEは使えない。また誤差の系列が定常でも、有限な標本数ではOLSEの効率は悪い可能性がある。そこで、共分散行列を推定できれば、その推定量を用いて、OLSEより有効な推定量が得られるかもしれない。GMEにおいて共分散行列をその推定量で置き換えたものを、一般化最小2乗推定量(GLSE)と呼ぶ。また、相関は考慮せず、分散だけを推定して、分散の推定量を重みとして用いた回帰係数の推定量を、加重最小2乗推定量(WLSE)という。

 共分散の推定には、OLSEによる回帰残差(OLS残差)を用いる。誤差項やその共分散構造に仮定したモデルのパラメータを推定するには、モデルをOLS残差に当てはめる。本論文では、誤差項が従うモデルのパラメータのOLS残差を用いた推定量や、共分散行列の推定量を用いたGLSEの性質を主に調べた。また、誤差項の分散が変動する場合に、ノンパラメトリックな方法により分散を推定する問題も扱った。

 論文は全8章から成り、各章の題目は次の通りである。

1 Introduction

2 Estimation of a Regression with an Error Model of Infinite Order Parameters

3 Asymptotic Properties of Least Squares Estimators of a Polynomial Regression with a Heteroskedastic Error

4 Estimation of the Coefficients of Time Series Regressions with Nonstationary Error Processes

5 Estimation of Regression Coefficients by using Misspecified Covariance Structures to Error Processes

6 Approximations to the Distributions of the GLSEs and GLSPs of Regressions

7 Degeneracy of the Distributions of the GLSEs of Regressions with Circularly Distributed Errors

8 Comments on the results and further studies

 第1章では、先に挙げた2つの定理を説明し、その後の各章の概要を示した。第2章から第7章においては、それぞれのテーマにそった研究内容を述べた。第8章では、第2章から第7章の内容に対して全般的な評価・反省をして、さらに残された問題・今後の研究の方針を示した。第2章以下の内容は次の通りである。

 第2章においては、誤差項が無限次数の線形な確率過程に従う場合を考えた。そのような確率過程の係数、分散、スペクトル密度の推定については、すでにBerk(1974)などの研究がある。ここでは、Berk(1974)のモデルを誤差の系列に仮定して、OLS残差を用いて、モデルのパラメータやスペクトル密度を推定した。このとき、有限次数のモデルとみなして係数を推定し、推定量が一致性を持つために、標本数を増加させたとき、それに対応して推定する係数の数のオーダーを評価した。さらに、誤差の系列が従う過程の係数の推定量を基にして、共分散構造を考慮したGLSEを考え、その一致性を示した。

 第3章では、誤差項が不等分散を持つ非定常な場合を扱った。Grenander-Rosenblattの定理の条件が成立しない場合である。理論的に分析するために、時間を独立変数とする多項式回帰で、分散も時間の多項式で表現されるものとした。このとき、回帰係数のOLSEや分散の推定量が一致性を持つための、独立変数と分散それぞれの多項式のオーダーの関係を評価した。ここで、誤差項の間の相関関係にも仮定を置いた。

 さらに、線形トレンドの場合に、切片と傾きのOLSEとGMEそれぞれの共分散行列について、標本数を無限大とした極限を評価した。ただし、誤差項の分散は時間の多項式で表されるが、無相関とした。パラメータの値を変化させて、2つの共分散行列の極限について理論値を計算し、GMEに対するOLSEの効率を比較した。分散の変動が激しくなるにつれて、GMEに対するOLSEの効率は悪くなる。

 第4章では、誤差項が不等分散を持つ回帰モデルのLSEの性質を、小標本の場合についてモンテカルロ実験で調べた。OLS残差の2乗の系列を移動平均したもので分散を推定するノンパラメトリックな方法を考えた。さらに、分散の推定量を重みとして、回帰係数をWLSEで推定する。ただし、移動平均に用いるOLS残差の数を決める規準については議論しなかった。

 提案した推定量を、Harvey and Robinson(1988)のGLSEなど他のLSEと比較した。変動する分散をノンパラメトリックな方法で推定したWLSEの方が、他の推定量より有効である。誤差項の相関構造まで推定してGLSEを用いると、推定量の効率は下がる場合がある。小標本の場合に不等分散な誤差項を持つ回帰モデルを推定するには、相関構造は考慮せず、分散の変動を推定するだけでも、OLSEに比べてかなり効率が良くなる可能性がある。

 第5章においては、誤差項の共分散構造を誤った場合のGLSEの性質を調べた。時系列に誤ったモデルを当てはめたと仮定して、そのパラメータの推定量の性質を調べる研究はすでにある。ここでは、誤差の系列が定常な自己回帰モデルに従うとは限らない場合に、特に定常な自己回帰モデルをOLS残差に当てはめて、誤差項の共分散行列を推定する場合を扱った。

 当てはめた自己回帰モデルが誤りでも、理論的にはGLSEが一致性を持つ条件を考え、例として、観測途中の一時点で係数が変化する非定常な自己回帰モデルと移動平均モデルを挙げた。いずれも次数は1である。これらの例については漸近的な性質に加え、モンテカルロ実験により、小標本でのGLSEの性質も分析した。

 誤差の系列が非定常な場合に、OLS残差の系列に当てはめた定常な自己回帰モデル(1次とは限らない)の相関構造を用いたGLSEによって、OLSEより有効な推定ができる可能性があることを示した。Grenander-Rosenblattの定理により、誤差の系列が定常であれば、大標本ではOLSEとGMEそれぞれの共分散行列の値は近いと考えられる。ところが、数値実験では、小標本でも2つの共分散行列の値は近く、余計なパラメータを推定する分だけ、GLSEを用いてもOLSEより有効な推定はできそうにないことも分かった。

 第6章は、GLSEや一般化最小2乗予測量(GLSP)の確率密度関数を近似する問題を扱った。Kariya and Toyooka(1992)では、誤差項が正規分布に従う場合に、GLSEとGLSPの確率密度関数や分布関数を正規近似したときの一様限界を理論的に示している。この限界を一般的な楕円分布の場合に拡張することを考えた。

 また、Kariya and Toyooka(1992)が求めた限界を、誤差の系列が1次の自己回帰モデルに従う場合について数値的に調べた。自己回帰係数の値を大きくすると、限界が大きくなり、近似の精度は悪くなる。このとき必要なLSEの共分散行列が、モデルのパラメータによって表現できないため、その値をモンテカルロ実験により求めた。

 第7章では、特殊な問題を扱った。切片を持つ回帰モデルで、その誤差の系列が循環型自己回帰モデルに従う場合、GLSEとGMEの差の分布が退化することを示した。OLSEとGMEが一致する条件を求める研究はすでにある。しかし、推定量の差の分布が退化する場合の条件について報告はなかった。ただし、ここでの証明方法では、回帰モデルの独立変数が2つで、その1つが定数の場合(切片を持つ場合)しか扱えなかった。一般にはLSEの間の差は平面上に分布するはずが、退化して直線上に分布することを示した。

 第8章では、総括と残された課題を述べた。第2章や第3章における、誤差項が従うモデルのパラメータの推定量やLSEの性質についての漸近理論に基づく研究では、GLSEの漸近分布を求めるまでには至らなかった。第2章の問題の場合、標本の大きさに比べて、推定するパラメータの数が多ければ、GLSEの効率は悪くなると考えられる。有限標本でのGLSEの性質をモンテカルロ実験により調べる必要がある。

 第4章のモンテカルロ実験では、様々な場合を想定してLSEの有効性を分析した。しかし、第5章におけるモンテカルロ実験は十分とは言えず、他にも非定常なモデルを誤差項に仮定した場合を扱うべきであった。

 OLSEとGMEそれぞれの共分散行列の差が大きければ、GLSEを用いてOLSEより有効な推定ができるが、その差が小さければ、GLSEの効率はOLSEより悪くなると考えられる。第4章のモンテカルロ実験で、誤差に相関関係があっても、それを無視してGLSEの代わりにWLSEを用いることで、OLSEより有効な推定ができる可能性があることが分かった。特にノンパラメトリックな方法で推定した分散を用いたWLSEは、他のLSEより有効であった。これらの点について、さらに詳しく研究したい。

 Kariya and Toyooka(1992)の限界を、正規分布より広い楕円分布に拡張する第6章での試みは、不十分であった。正規分布でない楕円分布を誤差項に仮定して、GLSEの分布をGMEの分布で近似する場合の限界を評価したい。また、モンテカルロ実験では、非定常なモデルを誤差の系列に仮定した場合も調べたい。

 第7章の結果については、残念ながら独立変数が2つの場合しか示せなかった。その後、独立変数が一般的な個数に対して拡張する証明法が示された。誤差項が循環分布に従い切片を持つ回帰モデルの場合、LSEの差の分布は独立変数の数より1つ次元が退化する。

審査要旨 要旨を表示する

 本論文は、統計学における重要な基本問題の1つである一般化最小2乗推定量の推定効率の問題に関する、論文提出者の一連の研究をまとめたものである。

 周知の通り、一般線形回帰モデルにおいて誤差項の共分散行列が既知である場合、Gauss-Markov推定量(Gauss-Markov estimator,以下GMEと略)が回帰係数の最良線形不偏推定量となる。これをGauss-Markov定理と呼ぶ。しかし、多くの実際的問題においては誤差項の共分散行列は未知であり、従ってGMEは通常の意味での推定量ではない。この場合、GMEに含まれる未知の共分散行列をその推定量で置き換えて得られる推定量がしばしば用いられる。これを一般化最小2乗推定量(generalized least squares estimator,以下GLSE)と呼ぶ。GLSEには、特殊な場合として、誤差項の共分散構造を無視した普通最小2乗推定量(ordinary least squares estimator,以下OLSE)も含まれる。

 一般にGLSEの推定効率は誤差項の共分散行列の推定精度に依存して定まるため、GLSEに関する理論的研究では誤差項の共分散行列の推定問題に焦点が当てられることが多い。その際、誤差項の共分散行列が少数の未知パラメータの関数であり、かつその関数形(以下、共分散構造と呼ぶ)が既知であるという条件がしばしば置かれる。しかし、共分散構造が既知という状況は必ずしも自然なものではなくて、部分的にしか分かっていない場合や全く未知の場合もあり得る。このような場合に、GLSEをどのように構成すればよいのか、またその推定効率はどれほどかといった問題は十分に解かれていないのが現状である。

 このような視点に立って、本論文の前半部では、次の2つの基本問題

 (1) 誤差項の共分散構造を部分的にしか利用しない場合の推定効率の評価(第2,3章)

 (2) 誤差項の共分散構造を具体的に特定化しない場合の推定効率の評価(第4,5章)

を扱い、それぞれに対して理論的結果を導出している。

 また、GLSEは一般に観測値ベクトルの非線形関数であるため、共分散構造が正しく特定化されていたとしても、小標本における推定効率やその厳密分布を明示的に評価することは容易ではない。この視点から議論が組み立てられているのが後半部である。そこでは、GLSEの厳密分布に関する次の2つの問題として

 (3) GLSEの厳密分布をGMEの厳密分布で近似したときの近似誤差の評価(第6章)

 (4) GLSEの厳密分布が1次元空間上に退化するという現象(第7章)

が扱われている。

 これらの結果は、これまで多くの研究蓄積がなされてきた回帰分析全体からみても大きな貢献であると評価される。以下、具体的にこの論文で得られた結果の要旨を紹介し、評価する。

 第1章では、本論文の具体的構成と、本論文の理論的基礎をなす定理であるGauss-Markov定理、Grenander-Rosenblatt定理の2つが紹介されている。Grenander-Rosenblatt定理とは、誤差項が定常過程であるような時系列回帰モデルにおいて、OLSEの共分散行列とGMEの共分散行列とが漸近的に等しくなるための十分条件を明らかにしたものである。Grenander-Rosenblatt定理で課される条件を、以下Grenander条件と呼ぶ。

 続く第2章以下が、論文提出者の貢献である。

 第2章では、誤差項の分布が無限次数の線形な確率過程で表される一般線形回帰モデルの推定問題が扱われている。本章で用いられる推定方式は、真の確率過程を有限次数のAR(k)過程(auto-regressive process of order k)で近似し、OLSE残差に基づいてAR(k)過程のパラメータの推定を行い、その推定値を用いたGLSEによって回帰係数を推定する、というものである。そして、標本サイズが無限大となるに従って近似モデルの次数kも無限大となる場合を扱う。この問題設定は、Berkが1974年に提唱したモデルを時系列回帰モデルへと拡張したものである。

 ここで興味ある問題として、(i)近似モデルのパラメータの推定量やGLSEは一致性を持つか、(ii)収束のオーダーがBerk等のものと同一となるのか、などが挙げられる。これらの問題に対する解が定理2.1、2.2、2.3で与えられ、Berkと同一条件の下での一致性が示される。この結果は、先行研究の数学的拡張として重要であるだけでなく、標本サイズが大となるに従って近似モデルが真の構造に限りなく近づく場合のGLSEの漸近的性質が明らかにされているという点で、応用上重要な示唆を与えるものと言える。

 第3章は、誤差項が不均一分散を持つ非定常時系列回帰モデルの推定問題を扱っている。誤差項の分散は時点tの多項式で与えられるものとし、かつ誤差項間の相関係数には、時点差が大きくなるに従って緩やかに小さくなるような構造が仮定される。また、説明変数は時点tの多項式であるとする。

 論文提出者は、まず命題3.1においてOLSEが一致性を持つための十分条件を明らかにしている。これは、誤差項の共分散構造を無視した推定量を利用した場合でも一致性が得られるのかという自然な問いへの1つの解答となる。続く命題3.2と3.3では、OLSE残差に基づくある種の典型的な分散の推定量を取り上げ、これが一致性を持つための十分条件が導出されている。また、定理3.1ではOLSEとGMEの漸近共分散行列の具体的表現が与えられている。

 命題3.1-3.3における十分条件が、分散を表現する多項式の次数のみによって表せる点は興味深い。また、定理3.1はGrenander-Rosenblatt定理の枠組の外にあることから、Grenander条件が成立しない場合にOLSEがGMEよりどれほど劣るのかについて明示的な結果を与えている点で評価出来る。やや残念なのは、本章では分散の推定量を用いたGLSEに関する考察がなされていないことであり、この点に関しては今後の研究が待たれる。

 第4章では、誤差項の共分散構造に具体的な構造を仮定しない場合の推定問題を扱う。先行研究として、ノンパラメトリックモデルの枠組での研究であるRobinsonの1987年の論文、およびHarvey and Robinsonの1989年の論文などを挙げることが出来る。本章では、加重最小2乗推定量(weighted least squares estimator,以下WLSE)の小標本における推定効率の評価に焦点が当てられている。ここでWLSEとは、誤差項の共分散行列のうち対角成分(各時点の分散)のみを推定量で置き換え、非対角成分(共分散)を0で置き換えたGLSEを指す。論文提出者は、WLSEにおける分散の推定量として2乗OLSE残差の系列の移動平均を用いることを提案している。

 このWLSEと他の幾つかの競合推定量との小標本における相対効率を数値実験によって調べることが本章の主題である。より具体的には、(i)誤差項間の相関の強弱とWLSEの推定効率との関係、(ii)不均一分散性の強弱とWLSEの推定効率との関係、(iii)移動平均の幅の選択、の観点から数値実験がなされている。論文提出者は、それぞれについて、(i)誤差項間の相関や不均一分散性が強くなるに従ってOLSEに対するWLSEの相対効率は向上する、(ii)移動平均の幅はT=50に対して5-7前後が最適である、(iii)多くの場合でWLSEは他の推定量よりも優れているという結果を得ている。

 第5章も前章に引き続き、誤差項に具体的な共分散構造を仮定しない場合の推定問題を議論している。本章では、共分散構造にAR(p)過程の構造を当てはめ、OLSE残差からAR(p)過程のパラメータの推定を行い、その推定値を用いて得られるGLSEが扱われている。誤差項の真の相関係数は、時点差が大となるに従って緩やかに小さくなることを仮定する。このモデルには、構造変化を持つAR(1)過程など、幾つかの興味深い確率過程が含まれる。主要な結果である定理5.1においてGLSEの一致性が示されている。また、数値実験によってGLSEとGMEとの小標本における相対効率も評価されている。

 続く第6章、第7章ではGLSEの小標本特性が議論されている。

 既に述べた通り、GLSEは一般に観測値ベクトルの非線形関数であるため、その小標本特性を調べることは容易ではない。実際、GLSEの厳密分布は殆どの場合について知られていない。分布の知られている少数例でもその複雑さゆえに殆ど実用化されていない。この視点に立って、第6章では、GLSEの確率密度関数をGMEの確率密度関数で近似したときの近似誤差を評価する。先行研究としては、近似誤差の一様限界を導出した1992年のKariya and Toyookaの結果がよく知られている。しかし、Kariya and Toyookaでは誤差項が正規分布に従うという強い仮定を置いており、必ずしも実用的ではない。本章の主題は、正規性の仮定を楕円対称分布にまで緩和することである。主な結果は、定理6.1に与えられており、そこで一様限界の理論的導出が行われている。

 また、数値実験によって、誤差項がAR(1)過程に従う単回帰モデルにおける一様限界値の具体的計算も試みられており、これを通じて自己回帰係数の値が1に近づくにつれて一様限界の値が大となることが観察されている。これらの結果は、前述のKariya and Toyooka論文の1つの自然な数学的拡張であり、その点で重要な貢献と考えられる。GLSEの分布を、(極限分布である)正規分布と比較するのではなくて、GMEの分布(これは必ずしも正規分布とは限らない)と比較するという視点は独創的であり、先行研究の見落としてきた部分に光を当てたと言えよう。

 第7章では、定数項を持つ単回帰モデルにおけるGLSEの厳密分布に関する新しい事実が導出されている。GLSEの推定誤差は、「GMEの推定誤差」と「GLSEとGMEとの差」の2つの項の和に分解される。両者は、正規分布の下では独立であり、楕円対称分布の下では無相関となる。このうち、「GMEの推定誤差」は誤差項の1次形式であるため、その分布を求めることは容易である。それに対して、「GLSEとGMEの差」は誤差項の複雑な非線形関数であり、分布的性質は殆ど知られていない。

 本章では、循環型AR(p)過程の下で、「GLSEとGMEの差」(これは2×1ベクトルである)の分布が直線上に退化することが証明されている(定理7.1)。また、その直線は未知パラメータによらず一定であることも併せて示される。この結果はその問題設定も含めて論文提出者の独創性によるものであって、先行研究が全く見落としてきた部分でもある。その意味で高く評価されてよいだろう。惜しむらくは、この結果の推測理論への応用が議論されていない点である。定理7.1、7.2を用いれば、誤差項が正規分布に従うという条件の下で、GLSEの共分散行列の構造が「GMEの共分散行列」+「スカラー」×「ランク1の既知行列」という形であることが分かる。この結果を用いれば従来よりも精密な推測が可能となるはずである。この点での今後の研究を期待したい。

 以上の内容を持つ本論文には、次のような長所が認められる。

 第一に、共分散構造を特定することの困難性は現実のデータ解析においてしばしば直面する問題であり、この問題を正面から議論している点である。本論文では一貫して、具体的な共分散構造を仮定しないモデル、共分散構造が誤って特定化されているモデルが扱われている。共分散構造を既知とすれば、モデルは単純となり数学的にはより見通しのよい議論が可能となるはずであるが、論文提出者はこのような単純ケースではなくて、より現実に即したモデルに焦点を当てている。この点は高く評価されるべきであろう。

 第二に、随所で非常に独創的な問題が設定されていることである。第2章、第6章は先行研究の数学的拡張であり、これはこれで優れた研究であるとともに、一方で第3章、第4章、第7章のように先行研究では扱われていないようなモデルや推定方式、あるいは数学的事実を議論する章があり、読者に一般化最小2乗法の理論の新たな側面を提示していることである。

 しかしながら、本論文にも不十分な点がないわけではない。例えば、第2章の主結果は一致性の証明のみに止まっており、漸近正規性、漸近共分散行列についての言及がない。これらは、基本的にはGMEとGLSEとの漸近的同等性から導かれるものであり、論文提出者にとって必ずしも高いハードルではなかったと考えられるだけにやや隔靴掻痒の感が残る。

 また、実用性という観点からの総括に乏しい点にも不満が残る。本研究から、どのような場合にOLSEが望ましく、どのような場合にGLSEを使うべきなのかに関する指針を導き、データ解析の現場へフィードバックすべきであろう。

 しかしながら、このような欠点は本論文の基本的価値を損なうものではない。一般化最小2乗法は長い歴史を持つものの、本論文のように共分散構造の特定化が必ずしも容易ではないような複雑な変動構造を持つデータの解析という観点からは、それほど多くの研究蓄積がなされているわけではないからである。

 以上、本論文は若干の欠点を持つとは言え、一般線形回帰モデルの誤差項の共分散行列に種々の構造を仮定することによってGLSEの理論的性質を多面的に明らかにしており、統計学に有意な貢献をなしていると言える。

 よって審査委員会は、本論文を博士(学術)の学位請求論文として合格と認めるとの結論に達した。

引用文献

UTokyo Repositoryリンク