学位論文要旨



No 127127
著者(漢字) 倉橋,一成
著者(英字)
著者(カナ) クラハシ,イッセイ
標題(和) 多数候補からの統計モデル選択に伴う誤分類率の推定と検定
標題(洋)
報告番号 127127
報告番号 甲27127
学位授与日 2011.03.24
学位種別 課程博士
学位種類 博士(保健学)
学位記番号 博医第3737号
研究科 医学系研究科
専攻 健康科学・看護学専攻
論文審査委員 主査: 東京大学 教授 佐々木,敏
 東京大学 教授 大江,和彦
 東京大学 教授 古川,洋一
 東京大学 教授 木内,貴弘
 東京大学 特任准教授 森,武俊
内容要旨 要旨を表示する

序文

近年コンピュータの計算能力の発展に伴い、機械学習や統計的学習の分野で予測を行うための様々なアルゴリズムやモデルが提案されている。作成したモデルの予測性能は、結果変数をカテゴリ変数とした上で予測結果の誤分類率を計算し、評価することが一般的である。統計モデルは簡単にいくつも試すことができるが、試したモデルのうち最も良いモデルを選択すると、選択バイアスが混入する。そのため本論文ではこのバイアスを加味した誤分類率の検定方法を提案する。また統計モデルの性能を視覚的に確認できるK-sample Plot(K's Plot)の提案を行う。これはBootstrap法やCross Validation法と違い、サンプル数が増えたときの誤分類の減少と検出力の増加を視覚的に評価できる新しい手法である。

方法

観測値の数がnである2値結果変数ベクトルを、m個の連続説明変数行列Xを使って予測する状況を考える(各群のサンプル数はn/2)。説明変数を利用して変数縮小と予測の2ステップで結果変数を予測するが、この一連の流れを1つの統計モデルという。変数縮小で0種類、予測でp種類の手法が統計モデルの候補になっているということは、統計モデルは最大でN(alg)=0×p種類試すことになる。本研究ではそれぞれ4種類ずつを組み合わせ、16種の統計モデルを試すこととした。変数縮小は、t検定、主成分分析、Partial Least Squares、クラスタリングの4つで、予測は、判別分析、Support Vector Machine、k-近傍法、ニューラルネットワークの4つである。

1. Err(CVS)の検定

Err(CVS)は多数のErr(CV)(Cross Validationを行った誤分類率)からもっとも良いものを選んだ誤分類率である。Err(CVS)を検定するためには、帰無仮説(Type I)の状況でのErr(CVS)の期待値と標準誤差が分かれば良い。統計モデルによる予測は2値ベルヌーイ試行の繰り返しなのでErr(CV)は二項確率に従う。また二項分布は正規分布で近似できることは良く知られている事実である。Err(CVS)の期待値を、標準誤差をσ(ErrCVS)とすると、正規近似による片側有意水準2.5%の検定方式は次のように表現することができる(誤分類率は過小方向のバイアスしか入らないので、検定は片側で行う)。

これは、推定された〓を足してもσE(ErrCVS)よりも小さければ、帰無仮説(H0)を棄却できるということである。H0を棄却するということは、得られたデータがType IIであり、説明変数と結果変数間の関連を統計モデルで特定できているということを示す。ただしαエラー(第一種の過誤)は2.5%である。σE(ErrCVS)は帰無仮説の状況でのErr(CVS)の標準誤差なので、相関のある二項確率の極値分布から求めることができる。このような分布の分布関数はこれまで数式によっては明示されていないが、相関係数を適当な値に設定して、乱数発生により極値分布を発生させることによって、σE(ErrCVS)を推定することができる。本論文では、乱数発生により推定したσE(ErrCVS)を使ってErr(CVS)の検定をすることを提案する。

2. K-sample Plot(K's Plot)による誤分類率の視覚的評価

次に以下ような手順で統計モデルの性能を視覚的に評価する図を、K-sample Plot(K's Plot)として提案する。n個の観測値のうち、ki個を抜き出したデータをX(ki)、Y(ki)とし、このデータからCVによって推定した誤分類率をErr(CV(ki))とする(本研究では10-fold CVで推定している、kiが小さく10-fold CVが行えない場合はLeave-one-out CVを行っている)。kiの数を変化させていくつかErr(CV(ki))を計算し、Err(CV(ki))(y 軸)とki(x軸)のプロットを作成する。するとこのプロットは、Type Iの状況ではkiが大きくなってはErr(CV(ki))は0.5のまわりをばらつき、Type IIの状況ではkiが大きくなっていくに従って真の誤分類率(Err(ture))に漸近する曲線となる。結局は、この曲線は検出力が上がっていく様子を表現しているのであるが、複雑な統計モデルを適用するときは検出力を計算で求めることは難しい。具体的なサンプルの選び方は次のようなものを提案する。kiはnの10%~100%までの10回行う(偏りのないようにランダムに選ぶ)。プロットを描きErr(CV(ki))が減少していく様子が見られないようであれば、1%~10%までの10回を追加してまたプロットを描く。これを解釈可能なプロットが得られるまで繰り返す。次にこのプロットに以下の指数関数モデルを当てはめる(one-phase exponential decay model、指数関数モデル)。

このモデルは、ki=oのときErr(CV(ki))から、kiが大きくなってくるに従ってに漸近する指数関数になっている。このモデルはサンプルが増えるに従って誤分類率が減っていくというErr(CV(ki))の性質を良く捉えている。パラメータのαとβは以下のように最小二乗法によって推定する。

これによって推定されるαがErr(ture)の推定値になっており、βがErr(ture)に漸近する速さを表している。式(5)だけでは推定が不安定で上手くいかない場合は、以下の導関数も同時に最適化する。

CVやbootstrap法では全ての観測値を使った誤分類率しか推定できず、統計モデルの性能を視覚的に確認することは不可能であったが、この方法によっては可能となる。しかし が少ないときはパラメータに過誤が起こりやすいことが予想される。例えばType Iの状況ではα=0.5付近の値が推定されるはずであるが、データによってはα=0.01と推定されてしまうこともある。そのためサンプル数が少ない場合は、この指数関数モデルで推定されるαはErr(ture)の推定値というよりは1つの目安に留め、Err(CVS)の検定によって推論を行うべきだと考える。

結果

設定1:n=20,m=100、設定2:n=20,m=1000、設定3:n=200,m=100、設定4:n=200,m=1000、の4種の状況でシミュレーションを行った。またType Iの状況とType IIの状況2つの合計3種のデータ構造を想定した。シミュレーション回数はどれも2,000回である。Type I、設定1の状況でのシミュレーション結果はErr(CVS)の期待値が0.321、標準誤差が0.092であり、乱数発生による理論分布ではそれぞれ0.298と0.078であった。乱数発生での推定値を用いて、2,000回のErr(CVS)を検定すると、2.5%が有意になり、有意水準を保った検定であることが示された。他の設定でも2.5%の水準を保っていた。

次に実データで検定とK's Plotを行った。白血病のサブタイプをマイクロアレイによって測定したデータで、サブタイプを予測する統計モデルを構築した。2つのサブタイプのサンプル数は10と5であり、12,625プローブ中3,762プローブを使用した。最も誤分類率の小さい統計モデルは検定を行って有意であり、そのモデルのK's Plotを描くと次のようになった。

考察

本研究では、多数の統計モデルから1つの最も良いモデルを選択する場合にどのようなバイアスが入るかを示し、その解決方法を提案した。多くの統計モデルからどのモデルを選択すれば良いのかという問題は、統計家にとって常に頭を悩ませる問題である。最良のモデルを選べばデータへのover-fitting(過適合)が起こっているのではないかと考えることも多い。本稿で提案した検定とK's Plotは統計モデルを選択するときの1つの根拠になることができる。

まず検定によって確認できることは、選択した統計モデルの性能が偶然誤差によるものなのかどうかである。いくつの統計モデルを試したかを記録しておき、その情報をもとに検定を行う。有意になれば統計モデルの性能は偶然ではないことが示唆される。次にK's Plotによって、個々の統計モデルの性能を視覚的に評価する。特に有意になった統計モデルが多数存在する場合に、それぞれK's Plotを描き、性能を比較することができる。ここでは単純に誤分類率の大きさではなく、K's Plotの曲線の形に注目することが重要である。例えば【図2】のようなプロットが得られるかもしれない。この場合は現在得られているデータでは統計モデル1の誤分類率の方が低いが、サンプル数を増やすことで統計モデル2の性能が上回ることが示唆されている。

このように誤分類率の検定とK's Plotは統計モデルの選択を行う上で非常に有用なツールに成り得る。例えば臨床試験によってバイオマーカーで統計モデルを作る場面などでは、非常に綿密に練られたプロトコルが必要となる。しかしそのような研究ではデータにどんなモデルが適合するか事前に分からず、どのような統計手法を使ってモデル構築をするかを記述するのは難しい。そのような場合でも、本研究のような検定とK's Plotを利用して統計手法を全て評価するとプロトコルに記載をしていれば、統計的に間違った推論を起こす可能性は低く、様々な手法を試すことが可能となる。

結論

本研究で提案した選択バイアスのある状況での誤分類率の検定では、有意水準を保って検定を行うことが出来ることが、シミュレーションによって示された。この検定を行えば統計モデル選択全体を含めた複雑なCross Validationを行わなくても、バイアスのない推論を行うことが可能である。また実データによって、K-sample Plotを描くことで個々の統計モデルの性質を視覚的に評価できた。

【図1】白血病データに「t検定による変数選択→判別分析による予測」という統計モデルを当てはめた場合のK's Plot。αはErr(CV)の漸近値、βは漸近する早さ。

【図2】複数の統計モデルでのK's Plotの確認

審査要旨 要旨を表示する

本研究では、疾病発症の予測やがん種のサブタイプ予測など、2値で起こる現象を予測するために多数の統計モデルを構築し、選択するときに伴う誤分類率への選択バイアスや選択の方法についての研究を行い、下記のような結果が得られた。

1.通常、統計モデルの性能はクロスバリデーション(CV)を行って誤分類率を評価する。CVによって計算された各統計モデルの誤分類率(ErrCV)のうち最も良い統計モデルのものをErr(CVS)と表現すると、Err(CVS)には選択バイアスが混入することを理論数式とシミュレーションによって示した。

2.本研究ではErr(CVS)の検定方式を導き、選択された統計モデルが有意であるかどうかを検定する手法を提案した。この検定でErr(CVS)が有意であれば、統計モデルの性能が十分に高いということを示唆する。

3.Err(CVS)の検定の性能をシミュレーションによって確認し、αエラーは名義水準(片側検定なので2.5%)以下に抑えられ、βエラーはサンプル数が十分にあれば小さくなることを示した。

4.統計モデルの性能を誤分類率の値だけで評価するのではなく、視覚的に確認するためのK-sample Plot(K's Plot)を提案した。このK's Plotによって、サンプルが増えたときの統計モデルの性能の上昇を視覚的に確認できるため、統計モデルの性能を質的に評価することができる。がんサンプルのマイクロアレイデータ、特定健康診査の実データで統計モデルを構築しK's Plotを描くと、統計モデルの予測性能の推移を確認することができ統計モデルの選択に幅が広がった。

以上、本研究では多数の統計モデル候補が存在する状況で予測性能を確認し、選択するときに起こる重大な問題について指摘・問題提起し、問題解決の方法を提案した。提案した手法の性能は理論とシミュレーションから正しいことが示された。この内容はこれまでの統計モデルの選択方法に警鐘を鳴らし、今後の統計解析にさらなる発展に大きな貢献をもたらすと考えられ、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク