学位論文要旨



No 125091
著者(漢字) 鈴木,大慈
著者(英字)
著者(カナ) スズキ,タイジ
標題(和) 統計的学習における情報統合の理論
標題(洋) Theory of Information Integration in Statistical Learning
報告番号 125091
報告番号 甲25091
学位授与日 2009.03.23
学位種別 課程博士
学位種類 博士(情報理工学)
学位記番号 博情第217号
研究科 情報理工学系研究科
専攻 数理情報学専攻
論文審査委員 主査: 東京大学 准教授 駒木,文保
 東京大学 教授 合原,一幸
 東京大学 教授 竹村,彰通
 東京大学 教授 室田,一雄
 東京大学 准教授 増田,直紀
内容要旨 要旨を表示する

This thesis theoretically investigates several kinds of information integration in statistical learning. In the statistics and statistical learning literature, information integration is realized through various types of methods. For example, Bayesian prediction integrates distributions over the model, Boosting integrates weak classifiers or functions to obtain strong ones, and multi-task learning integrates data and shares information around relevant learning tasks. We address six main topics of information integration. The first one is to analyze a prior distribution selection problem of a general class of Bayesian predictive distribution. We see that asymptotic risk is characterized by a second order elliptic operator which is a generalization of the Laplacian operator. This says that positive harmonic function improves the predictive performance. The second contribution is to propose a new Boosting method which combines Bayesian estimation and Boosting, show experimentally the effectiveness of our proposed method, and give a consistency proof of the proposed algorithm. The third one is to analyze data integration over classification tasks parameterized by a continuous variable. Integrating data around relevant tasks is often done to improve the performance in multi-tasks learning setting. We analyze it by assuming continuity between tasks, and the optimal range from which data are integrated and the optimal learning rate are given. We show that this learning rate achieves the mini-max lower bound which cannot be improved by any learning protocol. The fourth one is to give a parametric analysis of data integration as dealt with in the third one. The asymptotic risk is given by the Laplacian operator, thus geometric meaning of the risk is clarified. The fifth one is to analyze data integration on a discrete set of classification tasks. We observe that data integration could improve the generalization performance. The Final one is to analyze a density ratio estimator which is applied to covariate shift setting where input distributions for training and test are different. We give convergence rate on non-parametric settings and a variant of asymptotic normality on parametric settings. We also propose a new mutual information estimation method utilizing density ration estimation. Our proposed algorithm has several attractive properties and numerical experiments support the usefulness of our proposed method. Theoretical justification is also given. This thesis gives several fundamental tools for information integration studies.

審査要旨 要旨を表示する

統計的学習においては,特定の環境で得られたデータと単一の学習機械とを用いる研究が従来多くなされてきた.しかし最近になり,多くの異なる学習機械の出力を統合する方法,類似しているタスク間で情報を共有して学習を行う方法,異なる環境で得られたデータを転送して学習を行う方法などが注目を集めている.本論文は,これらの最近注目されている諸手法を情報の統合という視点から統一的に扱い理論的な基礎をあたえるものであり,"Theory of Information Integration in Statistical Learning (統計的学習における情報統合の理論)" と題し,全9章からなる.

第1章 "Introduction" では,統計的学習における情報統合の重要性について述べるとともに,各章の位置づけがなされている.

第2章 "On Prior Selection and Covariate Shift of β-Bayesian Prediction under α-Divergence Risk" においては,統計的予測を目的として,確率分布を統合する問題を扱っている.通常のベイズ予測分布の拡張であるβ-ベイズ予測分布について,α-ダイバージェンスを損失関数としたときのリスクの漸近的な評価を与えている.αとβが等しいときは,通常のベイズ予測分布の場合と同様に,モデル多様体上のラプラシアンを用いたリスクの特徴付けができること,αとβが異なるときはラプラシアンとは異なる楕円型偏微分作用素が現れることを示している.

第3章 "Notations and Tools for Nonparametric Analysis" では,以降の議論の基礎となる,ノンパラメトリックな統計解析に関する理論について概説がなされている.

第4章 "Bayes Boost and Its Consistency" では,複数の学習機械の出力を統合する有力な方法であるブースティングとベイズ法とを組み合わせることにより,従来のブースティングを改良することを提案している.提案手法により得られる分布が一致性をもつことの証明を与えるとともに,実際の判別問題に対して有効に働くことを数値的に確認している.

第5章 "Fast Learning Rate on Locally Aggregated Data" では,連続的なパラメータをもつマルチタスク分類問題を扱っている.これは,今まで系統的な研究がなされてこなかった重要な問題である.あるパラメータ値に対応するタスクの学習を行うのに,パラメータの値が近いタスクのデータを取り入れた方が学習結果のばらつきが小さくなる.しかし,異なるパラメータのタスクのデータを取り入れると学習結果にバイアスが生じる.そのため,どの範囲のパラメータのタスクのデータを統合するかが問題になる.本章では,窓を用いてノンパラメトリックな判別機の出力を統合した際の汎化誤差について,サンプルサイズが大きくなったときの漸近的な評価を行うことにより最適な窓の大きさを求めている.また,最適な窓を用いて統合を行った際の汎化誤差が,他のいかなる方法を用いても改良することができないと言う意味で最良であることを証明している.

第6章 "Parametric Estimation on Locally Aggregated Data" では,各タスクが,タスクのパラメータとは異なるパラメータにより指定される確率分布に対応するマルチタスク問題を扱っている.このとき,確率分布を指定するパラメータはタスクのパラメータの未知の関数になり,ノンパラメトリックな推測が必要になる.この問題に対して,カーネル関数を用いてタスクのパラメータの近傍の情報をウェイト付きで統合する方法を提案している.さらに,真の確率分布を推定するのに最適な窓の大きさを求め,汎化誤差の漸近的な評価を与えている.

第7章 "Identification of Discrete Tasks" では,タスクが離散有限個の場合の情報統合の理論を扱っている.有限個のタスクはそれぞれ確率分布に対応し,異なるタスクでも確率分布が同じことがあり得るという設定において,異なるタスク間のデータを統合して学習する方法を提案している.この方法により,タスクごとに別々に学習を行うよりも,サンプルサイズが増加したとき汎化誤差が小さくなることを証明している.

第8章 "Convergence Analysis of Density Ratio Estimator" では,未知の2つの確率分布から生成されたサンプルから,確率密度関数の比を求める既存の手法の性質について調べ,ノンパラメトリックなモデルに手法を適用した際の推定量の収束の速さと,パラメトリックモデルに手法を適用した際の推定量の漸近分布を求めている.また従来の手法に修正を加えた方法を相互情報量の推定問題に応用し有効性を実験的に示している.

第9章 "Concluding Remarks and Future Works" では,本論文の研究成果と今後の研究課題についてまとめている.

以上のように,本論文は統計的学習において注目を集めている広範囲の問題を情報統合の視点から統一的に捉えて理論的な基礎を与えるものであり,数理情報学上の貢献は大きい.

よって本論文は博士(情報理工学)の学位請求論文として合格と認められる.

UTokyo Repositoryリンク