学位論文要旨



No 111208
著者(漢字) 毛利,隆夫
著者(英字)
著者(カナ) モウリ,タカオ
標題(和) 記憶に基づく推論に関する研究 : 属性重み付け手法の研究と天気予測への応用
標題(洋)
報告番号 111208
報告番号 甲11208
学位授与日 1995.03.29
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第3452号
研究科 工学系研究科
専攻 情報工学専攻
論文審査委員 主査: 東京大学 教授 田中,英彦
 東京大学 教授 井上,博允
 東京大学 教授 武市,正人
 東京大学 教授 渕,一博
 東京大学 教授 石塚,満
内容要旨

 記憶に基づく推論(Memory-Based Reasoning: MBR)の特徴は,ルールのような抽象度の高い表現では知識を保持せず,大量に蓄積された事例(問題とその回答の組)を直接用いて推論を行なう点にある.質問に対しては,蓄積された事例の中からその質問に最も類似した事例を検索し,類似事例の回答を,そのまま質問の回答とする.新しい知識の学習は,基本的に新しい事例を事例ベースに追加するだけである.MBRは,最も簡単な学習である暗記学習に近い枠組みだが,質問と完全に一致する事例が記憶されていなくても,類似事例により回答を生成できる点が異なる.

 MBRでは,事例間の類似度の計算方法,具体的には事例を構成する属性の重み付け手法が正答率に大きな影響を与える.これまでに,属性の重み付け手法は多数提案されてきたが,手法間の比較や,対象とするデータの特性と手法の優劣との関係の解析は十分には行なわれていなかった.また多変量解析などの,MBRと同種の問題を対象にする他の手法との比較も不十分であった.

 本研究では,まず13種類のベンチマークデータを用いて,各種の属性重み付け手法間の実験的比較を行なった.具体的には,条件付き確率を元にした方法(PCF,CCF,VDM),相互情報量を元にした方法(MIC),等重み値法(NN),incrementalな方法(IB4)を評価対象とした.また広く用いられている統計的手法である主成分分析(PCA)および数量化II類(QM2)と,数量化II類の事例ベースへの拡張(QM2y,QM2m)との比較も合わせて行なった.

 ベンチマークデータによる比較実験の結果,クラス毎の分散を最大化するように属性を独立化する数量化II類(QM2,QM2y)が,主成分分析や他の属性重み付け手法と比較して高い正答率が得られることがわかった(表1).また,従来の属性重み付け方法の中のいくつかは,重み付け計算のコストが小さいことから大規模データに対して有効であることがわかった.

表1:最高正答率を得たベンチマーク数と属性重み付け手法との関係

 一般に,MBRに限らず概念学習のアルゴリズムの評価には,現実世界の問題から得られたベンチマークデータがよく用いられる.ベンチマークデータを用いた評価の利点としては, 広く流通しており他の実験結果との比較が容易な点,現実世界での事象を元にしており恣意性が少ない点などが挙げられる.その反面,どのデータをいくつ使って評価実験を行なえばいいのかの指針が明らかでない点などが問題点として指摘できる.これらの問題点を解決するため,本研究では人工的にデータを合成し,それらを用いた実験によってアルゴリズムの評価を行なう方法を提案した.

 人工データによる評価の利点は,特性が既知であるデータを,必要な数だけ合成できる点にある.したがって,どのデータ特性がアルゴリズムの振舞いに影響しているかを,実験的に知ることができる.一方で,人工データを合成する際にはパラメータの選択が問題になる.データの特性を決定づけるパラメータが含まれていない場合には,一部の偏ったデータしか作成されず,アルゴリズムの評価も偏る可能性がある.

 本論文ではまず,データを構成する属性間の依存度が,人工データ合成の際に不可欠なパラメータであることを示した.具体的には,属性間の依存度を制御可能な,人工データ合成プログラムを作成し,これによってデータの属性間の依存度を変化させた場合のアルゴリズムの振舞いの変化を調査した.図1から分かるように,属性間の依存度により正答率が大きく変化するため,属性依存度が重要なパラメータであることが分かる.

図1:属性依存度と正答率

 また,あらゆるデータに対して良い正答率を挙げる学習アルゴリズムは存在しないことが証明されているため,対象とするデータを絞り込む必要がある.そこで本論文では,対象とするデータを「現実世界」から得られるようなデータに限定した.現実世界という概念は曖昧であるが,現実世界から得られたベンチマークデータを基準として用い,これらのデータに類似した特性をもつパラメータのみによってデータを合成した.このパラメータには属性依存度が含まれている.これらの人工データを用いて,データ特性とアルゴリズムの優位性との関係を明らかにした.

 図2に,合成した1536種類のデータのうち,どれだけの割合で良い正答率が得られたかを示す.VDM,MICの両手法は,データ空間中の6割以上の点で良い正答率が得られているのが分かる.一方,図3に示されるように,数量化II類(QM2)は単独で高い正答率を得る頻度が高く,他の手法とは異なるデータで高い正答率を挙げているのが分かる.これは,数量化II類が属性値の平均値によって分類を行なうのに対して,他の手法が事例毎の属性値を用いて分類するためである.

図表図2:人工データ空間で最高(もしくは同等)の正答率が得られた割合 / 図3:手法が単独で良い正答率を得る場合

 最後に,記憶に基づく推論を天気予測に応用する研究を行なった.天気予測は大規模で実用的なアプリケーションであるだけではなく,事例の特性がベンチマークデータと大きく異なり,MBRの例題としても興味深い.記憶に基づく推論を天気予測に応用したシステムWINDOMは,アメダスなどの気象庁の観測網から得られた9年分の観測データを事例として蓄えており,現在の気象状況と最も類似した過去の時点を検索し,それを参考にすることで,数時間先の東京近辺の降水有無を予測する.

 図6に,利用する観測データの年数と正答率との関係を示す.このように観測データ量の増加などが正答率の向上に効果的であることが確認された.図4,5には,それぞれ3時間後,9時間後の東京の降水有無を予測する場合の,降水量属性の重み値を示す.予測時間が先になるにつれて,重みが大きく,予測に重要である観測点が西に推移しており,天気が西から変化する特性が反映されていることが分かる.また,図7に,気象庁の関東甲信地方の予報と,WINDOMの予測との比較を示す.WINDOMの正答率は,一都六県の平均値では劣るものの,一部の地区では気象庁の平均正答率と同等の正答率が得られており,天気予測におけるMBRの有効性を示すことができた.

図表図4:3時間後予測での降水量属性の重み値 / 図5:9時間後予測での降水量属性の重み値図表図6:データ量と正答率との関係 / 図7:気象庁による予測の正答率との比較

 以上のように本論文は,MBRについて属性重み付け手法を様々な方法で解析・評価し,天気予測に応用して実用性を検証したものである.

審査要旨

 本論文は、「記憶に基づく推論に関する研究-属性重み付け手法の研究と天気予測への応用-」と題し、6章からなる。エキスパートシステムは、人間の専門家に代わってある分野の処理を知的に行なうシステムであるが、その作成に際して人間からそのシステムに必要な知識を如何に獲得するかが問題となっていた。これに対し、多くの事例をそのまま記憶しておき現在の状況に似たものを探して、その事例の結果を現在の出力とすることが考えられる。この種の推論方式を記憶に基づく推論と呼ぶが、この推論方式では、その種の知識獲得の問題が生じないという特徴がある。しかし、従来まで、その理論的な基盤や詳細な適用法が不明であった。本論文は、これを理論的に扱い一般的な適用方式を明らかにすることを目指したものである。

 第1章「序論」では、研究の背景と目的、並びに論文の構成について述べている。

 第2章「記憶に基づく推論(MBR)」は、MBRの対象とする問題領域を明らかにしてその特徴を述べ、推論方式一般における位置付けや学習方式一般における位置付けを与えるとともに、その手法としての問題点を考察し、MBRの中核技術が属性に対する重み付け手法にあるにもかかわらず、その理論的な基盤が明らかでなく、一般的な手法が欠如していることを述べている。

 第3章「ベンチマークデータによる属性重み付け手法の評価」では、まず、従来の属性重み付け手法を概観し、連続量を扱う離散手法をサーベイして、従来の手法の問題点を述べ、次に、主成分分析や数量化II類等の多変量解析手法との比較を試み、これらとの共通点や差異を明らかにしている。また、多変量解析では、元の属性を独立な新たな属性に変換するが、新たな属性のすべてを用いるのではなく、重要でないものは省く手法の議論を行なうとともに、連続量を離散化する必要のある手法に対して、その3つの手法を比較検討している。更に、この章では、概念学習の分野で広く用いられている13ヶのベンチマークを対象に、MBR手法6つ、多変量解析の拡張4つの合計10の手法相互の比較を行なっており、多変量解析手法は、正答率からみれば良い結果を与えるが、事例が追加されるようなインクレメンタルな学習には向いていないこと、またその重み付け計算の量がMBRに比して100倍程高く、元のデータ量が多い場合は利用が非常に困難であること、同じ多変量解析手法の中でも主成分分析に比して数量化II類の方が一般に正答率が高い上、変換された後の属性数が小さくより優れた手法であること、多変量解析等平均値ベースの手法は、問題の性質によってMBRよりも極端に悪い正答率を与える場合があること、等を明らかにしている。

 第4章「人工データによる属性重み付け手法の評価」では、まず、ベンチマークデータによる評価の得失について考察し、あらゆるデータに対して良い結果を与える汎用のアルゴリズムは存在しないので、各アルゴリズムが得意とするデータの特性を明らかにすることが本質的であることを述べている。従って、人工的に合成したデータを用いることによって、データの特性とアルゴリズムの性能との関係を把握することが有用であるとし、人工データに於ける適切なパラメータの選定手順を与え、人工データ合成プログラムを作成している。次にこれを用いて二つの実験を行なっている。一つは、人工データの選定基準として設定した4種類の基準相互の関係を評価したもので、適切な選定を行なうことによって、人工データでも元のデータと非常に類似した振舞いを与えることが出来ることを示している。二つ目は、人工データによるデータ特性とアルゴリズムとの関係の解析で、人工データの選定基準に実際的なものを用い、合計1536種類のデータを人工的に作成して評価を行ない、各種アルゴリズムの特性を論じ、MBRの手法の優位性を実証している。

 第5章「MBRの天気予測への応用」は、前章迄で検討した手法を、天気予測という実用規模の例題に適用してみたものである。天気予測を選んだ理由は、それが大規模で実用に供されていること、データが多量に存在し気象庁から入手可能であること、前章までのベンチマークに比して極端に属性数や事例数が多く、MBRの特徴が生かされる例題だからである。気象庁による天気予測では、計算による予想気象配置図から、晴れ・雨等の言葉への翻訳が行なわれるがそれはかなり予報官の経験や勘に依存する部分が大きい。MBRでは、この「曖昧な」部分も含んだ形での予測が容易である。作成したシステムは、AMeDASの観測点960点、有人観測所120箇所の気象測定データとその時点の天気のデータ9年分を用い、現在の観測データとの類似を見て、それに最も近い時点から数時間後の天気を予測結果とするもので、MBRを用いることにより、6時間後の東京の天気の予測結果が86-87%という精度で得られること、この値は多変量解析手法よりもかなり高いこと、気象庁の結果よりも2%程低いこと等を示している。

 第6章「結論及び今後の課題」は、本論文の結論をまとめるとともに、将来の課題について述べている。

 以上、これを要するに本論文は、記憶に基づく推論方式を適用する場合の一般手法を検討し、各種手法の特性を明らかにするとともに、データが与えられた場合に適切な重み付けを行なう為の手法を示し、大規模な天気予測に適用してその有効性を立証したもので、情報工学上貢献する所少なくない。

 よって、著者は東京大学大学院工学系研究科情報工学専攻における博士の学位論文審査に合格したものと認める。

UTokyo Repositoryリンク