学位論文要旨



No 117053
著者(漢字) 鶴岡,慶雅
著者(英字)
著者(カナ) ツルオカ,ヨシマサ
標題(和) 実世界データからの確率的知識の獲得とその利用
標題(洋) Acquisition of Probabilistic Knowledge from Real-World Data and Its Application
報告番号 117053
報告番号 甲17053
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第5194号
研究科 工学系研究科
専攻 電子工学専攻
論文審査委員 主査: 東京大学 教授 近山,隆
 東京大学 教授 広瀬,啓吉
 東京大学 教授 安達,淳
 東京大学 教授 西田,豊明
 東京大学 教授 喜連川,優
 東京大学 助教授 黒橋,禎夫
内容要旨 要旨を表示する

 計算機が実用化されてから数十年が経過し,今まで人間にしかできなかった数多くの知的作業が計算機によって可能となりつつある.計算機による知的処理に対する近年の主要なアプローチの一つは,事例から様々な知識を学習し,その知識を利用して最適な意思決定を行なおうとする方法である.事例から知識を獲得しようとするとき,完全に誤りのない知識だけを学習しようとすると,ノイズを含む事例からの学習が不可能なため,学習できる内容は非常に限られたものとなってしまう.実世界データは一般に多くのノイズを含んでいるため,そのようなデータから学習を行なうためには,確率的な知識という形で学習を行なうことが不可欠である.

 そのような,実世界データからの確率的知識の獲得と利用に関して,本論文では大きく分けて以下に述べる3つの研究を行なった.一つには,事例からの知識の獲得という問題に対し,確率的な知識の信頼性をベイズ学習の枠組を利用して正確に推定する手法を,自然言語処理における語義曖昧性解消の問題に適用しその効果を示した.また,教師情報が付与されていない事例も利用して学習する手法の一つとして,決定リストと確率的ラベルを用いる手法を提案し,疑似単語判定の問題を通してその効果を示した.さらに,意思決定のための確率的知識の利用法として,状態遷移に関する確率的知識を利用する効率的ゲーム木探索手法を提案し,コンピュータ将棋での実装によりその効果を示した.

 事例から仮説を学習する場合,仮説の信頼度,すなわちその仮説が正しい確率を正確に推定することは非常に重要である.しかし事例の数が少ない場合,通常の最尤推定法による確率値の推定では誤差が非常に大きくなってしまう.それに対して,ベイズ学習の枠組を利用すれば,適切な事前分布を設定することで,最尤推定法よりもはるかに正確な推定を行なうことができる.本論文では,ベイズ学習による確率値の推定手法を決定リスト分類器に適用する.決定リスト分類器は,様々な自然言語処理においてその有効性を示しており,特に語義曖昧性解消問題に対しては,語義判別の精度を競う競技会であるSenseval-1において,決定リストを階層的に拡張した手法が最も良い成績をあげている.

 ベイズ学習において最も重要なことは事前分布のどのように設定するかである.本論文では詳細さの異なる複数の種類の文脈上の証拠を用い,各々の種類について事前分布を設定する.すなわち,ある種類に属する仮説の確率は,その種類に属する他の多くの仮説の確率値と同じような性質を持っていると考える.そして,事例の数が多く確率値の推定が容易な仮説の確率値を利用して,事前分布のハイパーパラメータを設定する.図1に事前分布の例を示す.グラフ中のヒストグラムは,事例が多い仮説の確率値の分布を示し,曲線はそれらをもとに設定された事前分布を示す.証拠の種類によって,仮説の確率値の事前分布に明瞭な違いがあることがわかる.決定リスト中の仮説の確率値は,これらの事前分布と訓練データから計算される事後分布の期待値として得られる.

 本手法の有効性を確かめるために,決定リストによる語義曖昧性解消の実験を行なった.その結果,提案手法によって事前分布を利用して確率値を推定することで,仮説の確率値の誤差が事前分布を一様分布とした場合と比較して半減することが確認された.また,決定リストのルールの信頼度の計算法として従来用いられてきた最尤推定法や,対数尤度比による手法と分類性能の比較を行なった結果,提案手法が分類性能の点でも優れていることを確認した.

 事例から知識を学習しようとする場合,それぞれの事例にラベルがついている,いわゆる教師付き学習を考えることが多い.しかし教師付き学習を行なうためには,事例に対するラベル付けという非常にコストの大きな作業を人間が行なわなければならない.そこで最近注目を集めているのが,ラベルのついていない事例も利用して学習を行なおうとする手法である.そのような手法としては,EMアルゴリズムとNaive Bayes分類器を組み合わせる手法,Co-trainingと呼ばれる手法,Transductive Support Vector Machineなどが提案され,テキスト分類や語義曖昧性解消などの実験を通して,ラベルなしデータを利用することで分類器の性能向上が可能なことが報告されている.

 本論文では,自然言語処理において様々なクラス分類問題に適用されている決定リスト分類器でラベル無し事例を利用する手法を提案する.提案する学習アルゴリズムでは,信頼度が確率で得られる分類器を用い,ラベル無し事例につけた確率的なラベル(以後,確率ラベル)を繰返し更新していくことにより学習を行なう.繰返しのたびに,確率ラベルが付与された事例から分類器の学習を行い,その分類器によって確率ラベルの更新を行う.このような繰返しによって学習を行なうことにより,ラベル有り事例だけからでは学習することのできなかったルールを学習することができる.さらに,確率ラベルからその信頼度を考慮して学習を行なうことにより,間違ったラベル付けが間違った学習を引き起こすという悪循環を軽減している.

 本学習アルゴリズムを疑似単語の判定問題に適用して実験を行なった結果,ラベル無し事例を利用することで分類誤り率が大きく改善することが確認された.その効果は,ラベル有り事例の数を数倍に増やすことに相当する効果であった(図2).本手法では,分類性能の点だけでいえば,Naive Bayes分類器とEMアルゴリズムを組み合わせた手法に匹敵する性能は得られなかった.しかし決定リストによる学習では,学習内容が人間が理解可能なif-then形式のルールの並びで得られるという利点がある.そのため,学習途中で人間が介入して学習効率を高めることなども可能だと考えられる.

 計算機による知的処理の大きな要素として,合理的な意思決定の問題がある.多種多様に変化する現実世界において,現時点での最も合理的な行動を決定するという問題は,人工知能の究極の目標の一つだといってもよい.その問題に対する一つのアプローチは,先読みした未来の状態を何らかの評価基準によって評価し,最も評価が高くなるような行動を選択するという方法である.その研究の題材として,古くから計算機によるゲームプレイヤが研究され,コンピュータチェスでは,全幅探索といういわば力任せの探索手法によって人間のチャンピオンを凌駕するにいたった.しかしチェスよりも分岐数の大きいゲーム,例えば将棋や囲碁などに関してはそのような力任せの手法は無力であり,コンピュータプレイヤの実力もアマチュアレベルの段階に留まっている.

 本研究では,コンピュータ将棋プレイヤにおいて,プロ棋士の棋譜から抽出した確率的知識を探索に利用することで,より効果的な探索が可能になることを示す.従来の探索アルゴリズムの多くが深さを打ち切り条件として用いるのに対して,本アルゴリズムでは,局面の実現確率を打ち切り条件として用いる.その理由は,将棋のエキスパートプレイヤは,深さに基づいて指し手を読んでいるわけではなく「ありそうな展開」,すなわち実現確率の高い局面を中心に読んでいると考えられるからである.そして実現確率を計算するために,プロ棋士の棋譜から抽出した確率的知識を遷移確率として利用する.表1に,遷移確率の高い指し手のカテゴリのいくつかを,その確率値とともに示す.

 本アルゴリズムの評価として深さ打ち切りプログラムとの対戦による評価を行なった結果,同一思考時間における勝率は9割近くにも達し,本アルゴリズムによる探索が極めて効果的であることが確認された.また,思考時間を深さ打ち切りの1/5としても勝率が5割を上回ることから,その効果は,探索を5倍以上高速化することに相当するといえる.さらに,次の一手問題によって,現在のトップレベルの将棋プログラムとの比較を行なった結果,同等以上の正解率を達成することができ,実用的な観点からも優れた探索アルゴリズムであることを確認した.

図1:仮説の確率値の分布と事前分布

図2:ラベル有り事例の数と分類誤り率

表1:指し手による遷移確率

審査要旨 要旨を表示する

 本論文は"Acquisition of Probabilistic Knowledge from Real-World Data and its Application(実世界データからの確率的知識の獲得とその利用)"と題して、コンピュータを用いて実世界の大量データから必ずしも確実とはいえない確率的な知識を獲得する方法と、そのような知識を利用する方法について、基礎理論とアルゴリズムを構築、自然言語処理およびゲームプレイヤを対象にした具体的な適用を通して実証した研究の成果についてまとめたもので、英文で記述された以下の7章よりなる。

 第1章"Introduction"においては、研究の背景と目的を述べている。コンピュータによる知的な処理の実現はその草創期から夢見られてきたが、いまだに完全な実現に至っていない。その主要な原因のひとつに、コンピュータに知識を与えることの難しさがあげられる。近年の情報処理技術の普及に伴い文書などの大量のデータがコンピュータで利用可能な形で提供されるようになってきており、コンピュータにこれらから知識を学習させる方式が種々提案されてきているが、実世界のデータは誤りを含む場合も多く、従前の技術はこうした不確実な知識を扱う際には不十分である。そこで本研究では、誤りを含む可能性のある大量のデータから、確実とは限らない確率的な知識を獲得する方法と、獲得した確率的知識を適切に利用する方法について、精度・コストの両面での改善を目的としている。

 第2章は"Learning Classifiers"と題し、機械学習により分類器を構成する方式について既存の研究成果を概観、教師つき学習においては大量のラベルつきデータを用意する必要がある問題点を指摘している。

 第3章"Estimating Reliability of Hypotheses"においては、確率モデルのパラメータ推定方式である最大尤度方式とベイズ学習を紹介し、ベイズ学習を用いて仮説の信頼度を推定する手法を述べている。またベイズ学習においては、背景知識として適切な事前分布を用いることが重要であること示し、事前分布の選択指針を与えている。

 第4章"Decision Lists Learning Using Bayesian Learning"においては、自然言語処理などで広く用いられる決定リスト分類器において、仮説の信頼度をベイズ学習によって推定する方法と、英語の多義語および日本語の擬似多義語についての実験結果を示し、事前分布の適切な選択により正解率が向上するとともに、信頼度の推定精度が大きく改善できたことを報告している。

 第5章"Learning Classifiers from Uncertain Examples"においては、元のデータに付与されたラベルが不確実で確率的である場合のクラス分類器の学習の方法と、ラベルつきデータからの学習結果である不確実な知識を、ラベルのないデータの上に展開して利用する方法を述べている。さらに、この方式を日本語の擬似多義語の分類器学習に用いた実験結果を報告し、提案方式の適用によりごく少量のデータのラベル付けと大量のラベルなしデータの利用によって、低コストでの分類器学習が可能であることを示している。

 第6章"Game-Tree Search with Probabilistic Knowledge Extracted from Records of Games"においては、将棋の棋譜データから着手、すなわち盤面遷移の確率を学習し、その結果から局面実現確率を求め、コンピュータ将棋プレイヤの先読みのための資源配分を局面の実現確率に応じて配分する方法を述べている。また、この方式を用いたプレイヤの実験の結果、これまで標準的に用いられてきた一定深さでの先読み打ち切り方式に比して、大幅に性能を向上できることを示している。

 第7章"Conclusion"では本研究の成果をまとめている。

 以上これを要するに、本論文ではコンピュータに知的な働きをさせる前提として重要である知識獲得の人手コストを低減するために、確率的な知識の獲得と利用を可能にする方式を提案し、実験を通じてその有効性を実証しており、その成果は電子情報工学上貢献するところが少なくない。

 よって本論文は博士(工学)の論文として合格と認められる。

UTokyo Repositoryリンク