学位論文要旨



No 120527
著者(漢字) 小林,景
著者(英字)
著者(カナ) コバヤシ,ケイ
標題(和) カーネルマシン及びネットワークモデルのベイズ理論
標題(洋) Bayesian theory for kernel machines and network models
報告番号 120527
報告番号 甲20527
学位授与日 2005.03.24
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第40号
研究科 情報理工学系研究科
専攻 数理情報学専攻
論文審査委員 主査: 東京大学 助教授 駒木,文保
 東京大学 教授 杉原,厚吉
 東京大学 教授 竹村,彰通
 東京大学 助教授 村重,淳
 東京大学 講師 大石,泰章
内容要旨 要旨を表示する

本論文では,カーネルマシンやネットワークモデル,回帰分析等のベイズ理論とその応用を中心として,著者が博士課程で行った研究内容を紹介している.本論文で扱った主題は大きく以下の4つに分けられる.

1. 楽観性,悲観性を導入したネットワーク決定問題の効率的な解法

 ネットワークモデルにおける意思決定問題は,確率モデルと効用関数および観測値が与えられたときに,効用関数の条件付期待値を最大化するような決定を求める理論である.特に,確率モデルや効用関数の独立関係を表すグラフの形状を生かして,最適決定を効率よく計算することができる.

 しかし,正規分布に従う変数のみでモデルが構成されるときの計算方法は知られているが,離散変数を含む一般のモデルでの最適な決定を,グラフの特徴を生かして効率的に計算する方法は知られていなかった.

 本研究では,まず正規変数と離散変数をともに含むようなモデルにおいて,Junction Tree Algorithmと呼ばれる手法を応用した最適決定アルゴリズムを提案し,グラフの特徴を利用した計算量の減少を実現した.その際にLauritzen等により提案されたstrong rootの議論を用いた.さらに線形指数二次ガウス(LEQG)モデルと呼ばれる最適制御理論をグラフィカルモデルに拡張することによって,決定者が楽観性,悲観性をもつ場合の最適決定の理論を構築した.

 次に,ロバスト性をもつ制御として知られるH∞最適制御理論を拡張した,一般化H∞最適決定の理論を提案した.さらに一般化H∞最適決定が,楽観性をもつモデルの最適決定列のある極限と一致することを証明した.また,コレスキー分解を用いることにより,一般化H∞最適決定を直接求める方法も示した.

 本研究は離散変数と連続変数の混在モデルの最適決定アルゴリズムを提案し,楽観性を決定問題に導入したことによって,ネットワークモデルの最適決定の理論を大きく拡張することに成功した.

2. 情報量規準によるカーネルマシンのパラメータ選択

 判別分析およびパターン認識に用いられるサポートベクトルマシンとカーネルロジスティック回帰の二つのカーネルマシンに関して,情報量規準を用いた正則化パラメータの選択手法を提案した.

サポートベクトルマシンは,その汎化能力の高さと二次計画に問題が帰着できる点から現在最も注目されている判別学習機械のひとつである.一方カーネルロジスティック回帰は,損失関数の連続性から自然な統計モデルを構成できるうえに,近年分解アルゴリズムによる計算手法が提案されたことにより応用上も注目されている学習機械である.しかし,その性能は正則化パラメータと呼ばれるパラメータの値に大きく依存する.よって,そのパラメータの最適化が大きな課題となっている.

 本研究では,以上の二つのカーネルマシンのベイズ統計モデルを構成する.さらに,それを正則化統計モデルと解釈し,正則化情報量規準(RIC)を用いてカーネルマシンのパラメータを最適化することを提案した.ただし,カーネルマシンでは,カーネル関数とよばれる正定値関数を用いて特徴空間の内積のみを定義するため,RICの直接の計算は不可能である.そこで本研究では,RICの計算を一旦ある固有値問題に帰着することで,その導出を可能にした.しかし,RICの計算にはサンプル数の3乗オーダーの計算量が必要であるという問題点があった.そこで,本研究では,さらにグラム行列の近似計算に用いられるNystrom法をRICの計算に用いることを提案し,サンプル数の線形オーダーの計算量での近似計算を可能にした.

 実験の結果,RICによるパラメータの最適化は,WahbaのGACVやxi-alphaアルゴリズムなどの高速なパラメータ選択規準や,ベイズ統計学を用いたevidenceによる規準に比べて,有意にテスト判別率が高いことが示された.さらに,広く用いられる10-foldクロスヴァリデーションと同程度の判別性能を,数百程度のサイズの訓練データセットに関して,10倍〜1000倍の速さで実現可能であることが示された.

3. 回帰分析の縮小ベイズ予測理論

 本研究では,正規ノイズを仮定した線形回帰分析に関して,ある縮小型事前分布のクラスを用いたベイズ予測分布が,Kullback-Leibler損失に関して,一様事前分布を用いたベイズ予測分布を優越することを証明した.また,その縮小型事前分布のベイズ予測のミニマクス性も示した.さらに,これらの縮小型事前分布のうちのいくつかは説明変数によらないことから,任意の説明変数に関して,一様事前分布によるベイズ予測を優越するような事前分布が構成できる.

 ここで,一様事前分布を用いたベイズ予測は,最尤推定値のプラグインを優越することが知られているので,その一様事前分布を用いたベイズ予測をさらに優越する予測を提案することは意味がある.

 証明の概要を説明する.まず線形回帰問題を,平均が未知,共分散行列は既知であるが訓練標本と未来の標本で変化する場合の,多変量正規分布の予測問題に帰着させた.共分散行列が一定の場合の多変量正規分布の予測問題に関する,縮小型事前分布を用いたベイズ予測の有効性はKomakiやGeorgeらの研究によって既に知られているが,本研究では彼らの結果を共分散行列が,訓練標本と未来の標本で変化する場合に拡張した.具体的には,訓練標本の共分散行列および未来の標本の共分散行列によって表されるある条件をみたすような計量のクラスを定義し,そのクラスに属する任意の計量に関するStein事前分布を用いたベイズ予測が,一様事前分布を用いたベイズ予測を優越することを証明した.ただし,その証明方法はGreenの定理を用いるもので,共分散行列が不変の場合のKomakiやGeorgeらの証明とは本質的に異なる.また,同様のクラスに属する計量に関して,密度関数が優調和関数となる事前分布に関するベイズ予測がミニマックスになることも証明した.

 以上の結果を用いると,回帰分析に関する縮小ベイズ予測の有効性も示すことができる.縮小事前分布によるKullback-Leiblerリスクの改良は,データが高次元であるほど大きくなるので,一般に高次元な特徴空間をもつカーネルマシンへの応用が期待される.特にStein事前分布による縮小は,現在広く用いられているリッジ回帰の縮小に比べて,真の平均パラメータに関するロバスト性があることが本研究の結果からいえる.

4. トーナメントによる全順位決定問題の組み合わせ論的解析

 スポーツの大会などで通常行われるトーナメントでは,実力が一番の選手と二番の選手が一回戦で対戦してしまうと,二番の選手は全体の半数以下の順位になってしまう.本発表では,このような問題を解決するために,並列マッチング法とよばれる新しいトーナメント構成方式を提案した.並列マッチング方式では,実力が上の選手が必ず勝つと仮定すると (sure winner model) ,最終順位が実力通りに並ぶ.平行して複数個の試合が行われることも可能であるという仮定の下で,並列マッチング方式に必要なラウンド数の期待値が,チーム数の平方根のオーダーであることを証明した.これは,総当り戦による決定方式に必要なラウンド数がチーム数の線形オーダーであるのに対して,並列マッチング方式がより効率的な順位決定方式であることを意味する.

 証明の際には,ラウンド数の期待値を求める問題が,確率論の破産問題および投票問題に帰着されることを利用した.

 一方,試合の結果が確率1/2のベルヌイ試行に従う場合には(totally random model),並列マッチング方式に必要なラウンド数の期待値が,チーム数の対数の平方根のオーダーであることを証明した.また,より現実的なモデルとして,sure winner modelとtotally random modelモデルの中間にあたるBradley-Terryモデルの並列マッチング法のラウンド数の期待値を数値的に評価した.

 この問題の解析には,グラフ理論のHasse図や統計学の極値理論,Kolmogorov-Smirnov統計量の知識を用いるという点が特徴的である.また,本研究は並列計算アルゴリズムの理論と共通点を持ち,並列計算の新しいアルゴリズムの開発および理論の構築につながることが期待される.

審査要旨 要旨を表示する

 工学・自然科学のさまざまな分野において,伝統的な方法より複雑なモデルを用いて大規模なデータを取り扱うことが多くなっている.ネットワークモデルやカーネルマシンなどはその例である.また従来広く利用されてきた統計モデルにおいても,モデルの未知パラメータを推定値で置き換える方法より,事後分布を用いてモデルを重み付き平均化して得られる分布を利用する方法の方が,より複雑な計算が必要になるものの性能が良いことが知られている.計算機の発達にともなって最近注目されるようになったこれらの新しいモデルや手法に関しては,さまざまな発展の可能性があるとともに,理論的な取り扱いが十分になされていない面が多くある.

 本論文は,"Bayesian Theory for Kernel Machines and Network Models"(「カーネルマシン及びネットワークモデルのベイズ理論」)と題し,これらの最近注目を集めているモデルや手法のなかで,とくにネットワークモデルに基づく意思決定問題,カーネルマシンを用いた判別分析・回帰分析,線形回帰問題の予測問題に関して,ベイズ理論の枠組みに基づいた研究を行っており,全6章からなる.

 第1章"Introduction"では,本論文で扱われる問題について概観するとともに,ベイズ理論およびロバスト性の観点からみたそれぞれの問題の位置づけについて述べている.

 第2章"Risk-sensitive Decision Networks"では,ネットワークモデルに基づく意思決定問題について扱っている.意思決定に対する評価規準に意思決定者の楽観性・悲観性の程度をあらわすパラメータを導入することを提案し,最適な意思決定がパラメータの値にどのように依存するかを調べている.また,離散的な確率変数とガウス型の確率変数が混在するネットワークモデルに基づいた最適決定を効率的に求めるアルゴリズムを提案している.さらに,意思決定者が悲観的になった極限の状態を与えるパラメータのもとでの最適決定がH∞制御の一般化とみなせることを示し,これを一般化H∞最適決定と名づけ,ネットワークモデルを用いたロバストな意思決定法として提案している.

 第3章"Information Criteria for Kernel Machines"では,カーネルロジスティック回帰,サポートベクトルマシンなどのカーネルマシンと総称される学習機械をベイズ統計モデルとしてとらえ,正則化パラメータの決定方法を与える情報量規準Kernel Regularization Information Criterion(KRIC)を導出するとともに,KRICの値の具体的な評価方法を提案している.カーネルマシンにおいては,性能が正則化パラメータの値に大きく依存することが知られており,その決定方法が重要な問題とされてきた.本章の結果はこの問題に対して汎用性のある解決方法を与えている.

 第4章"Bayesian Shrinkage Prediction for Regression Problem"では,説明変数の分布が回転不変であるという仮定のもとで,正規線形回帰モデルを用いた予測問題を取り扱っている.予測の良さをKullback-Leiblerダイバージェンスで評価するとき,回帰パラメータに対する一様分布に基づくベイズ予測分布を優越するベイズ予測分布を構成することに成功している.回帰パラメータに対する一様分布は,無情報事前分布として一般的に利用されているものである.さらに提案したベイズ予測分布が,広く用いられているリッジ回帰を用いた予測分布に比べて,真の回帰パラメータの値に関するロバスト性をもつことを示している.

 第5章"Parallel Matching for Ranking All Teams in a Tournament"では,試合によって複数のチームの順位付けを効率的におこなう新しい手法を提案している.本章の結果はベイズ理論の枠組みをはなれたものになっている.通常のトーナメントでは,第1位のチームを決めることを目的に試合が組まれる.ここでは,参加チームをすべて順位付けするための効率的な試合計画を構成するための手法を提案し,並列マッチング法と名づけ,その性質を理論的・数値的に調べている.ラウンド数の期待値を求める問題を,確率論の破産問題および投票問題の結果を巧妙に利用することにより解決している.

 第6章"Concluding Remarks"では,2章から5章までの結果をまとめるとともに,いくつかの考察と注意を与えている.

 以上を総合すると,本論文は,統計科学の分野において最近注目を集めているいくつかのモデルと手法に関する重要な問題に対し,ベイズ理論の枠組みから問題をとらえることにより自然な解決を与えるものであり,数理情報学の分野の発展に大きく寄与するものである.

 よって本論文は,博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク