学位論文要旨



No 116814
著者(漢字) 熊田,陽一郎
著者(英字)
著者(カナ) クマダ,ヨウイチロウ
標題(和) 実際のコーチング法に基づいたサッカーエージェントによる協調戦術の獲得
標題(洋)
報告番号 116814
報告番号 甲16814
学位授与日 2002.03.29
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第372号
研究科
専攻
論文審査委員 主査: 東京大学 助教授 植田,一博
 筑波大学 教授 寺野,隆雄
 東京工業大学 助教授 山田,誠二
 東京大学 助教授 開,一夫
 東京大学 教授 玉井,哲雄
内容要旨 要旨を表示する

 本研究の目的は,サッカーにおける協調戦術の学習のモデル化を通して,マルチエージェントシステムにおける学習による協調作業の獲得機構,および,協調学習の新しい方法を提案し,評価することである.

 サッカーエージェント研究は,協調行動を特徴とするサッカーという課題をロボットやエージェントにより遂行させることを目的とする.それゆえ,その研究のアプローチは,マルチエージェントによる協調学習の問題に対する貢献が当初は期待された.しかしながら,現在のサッカーエージェント研究における,学習の目標は,主にフォーメーションと役割(いわゆるフォワード,ディフェンダなどポジション)の学習が中心となっており,当初の期待に応えているとは言いにくい.というのも,これはエージェント間の積極的な相互作用に基づく協調とは言えないからである.実際,フォーメーションや役割のみを獲得しても,味方の動きや敵の動きの予測をもとに行う連係プレーなどは実行できないと言われる.相互予測に基づく協調のメカニズムは,人間の協調行動に特徴的であり,これを機械学習の方法として枠組化することは,マルチエージェント学習にとって非常に重要である.そこで,人間の初心者にサッカーを指導する際の指導法に基づいた学習方法を,強化学習の枠組を用いてサッカーエージェントの学習に応用することを試みる.

 第1章では,マルチエージェントシステムにおける学習の問題と,サッカーエージェント研究の現在の傾向について紹介する.そして,実際のサッカーとサッカーエージェントを比較したとき,サッカーエージェント研究で考慮されてこなかった戦術という要素がマルチエージェントの協調学習研究にとっても重要であることを述べる.

 第2章では,人間の初心者がサッカーを学ぶ方法について述べる.サッカー指導者Hughesの方法では,フルフィールドでの総合的プレーを練習させる以前に,プレーを領域に分けて領域の広さと性質に応じた技術を学習させる.そして,サッカーの戦術決定とは,他プレイヤの行動の予測と状態のリスク計算の最適化である,としている.総合すると,

 1.フィールドのどの部分を使って練習するのかを設定する

 2.練習には何人のプレイヤが参加するのかを設定する

 3.単純な練習内容の設定する

 4.行動の成功率に基づく判断をする

 5.リスク計算に基づく判断をする

 初心者にフルフィールドで4.や5.を実行させることは不可能であるから,1.,2.,3.のように,ゴールに至るまでのプレーを構成する小さなサブ課題を与えることで局面に応じた適切な協調プレーを学習させる.

 本研究では,以上の学習方法に基づきエージェントプログラムを構築し,協調戦術を学習によって獲得する過程をシミュレーションする.エージェントを設計するにあたり,予測部には条件付確率を,状況に関するリスク計算の学習部分には,適応学習を導入する.具体的にはエージェントは,

 1.状況をグリッドにより離散状態変数化する,

 2.状態間の条件付確率をプレーの経験により学習する,

 3.与えられた課題の達成(もしくは失敗)に基づき,経験済みの状態の効用値を増減させ,最適にできるだけ近いリスク計算を学習する

状態間に定義される条件付確率は初期値としてランダムに与えられるが,プレーにおける状態遷移に基づき更新され,敵及び味方の振舞いについての情報を与える.各々の状態は初期においてランダムな効用値を持つが,プレーの過程でチームの課題達成に寄与した状態は報償を得る.シミュレーションにおける,ミニゲームの設定および,そこでエージェントに与えられる課題については以下に述べる.

 第3章では,3×4のグリッドで攻守3対2の環境でシミュレーションについて述べた.3×4のグリッドによりエージェントは環境を離散状態変数化する.3対2という設定により,数的優位が局所領域で達成されている状態でプレイヤが実行すべき協調戦術の学習が促せる.図1,図2におけるグリッドの底辺の太線はエンドラインである.エージェントに与えられた課題は,

3人の攻撃側:エンドラインにボールを到達させること

2人の守備側:攻撃を阻止しフィールドからボールをサイドアウトさせること

である.これが達成されたミニゲームの遷移状態の効用値を強化することで,リスクの学習を行う.

 結果として,本エージェントは学習によって,図1,図2のような小人数による基本戦術を獲得した.図1,2中の矢印は,プレイヤ,及び,ボールの移動を意味する.また,オープンスペースを使ってやり取りされるパスが学習によって増加し,それにつれて,攻撃側の勝率が有意に増加した.また,強化学習の代表的方法であるQ-learningとの比較の結果,マルチエージェント動的環境下の学習に対する本研究の頑健性が示された.

 第4章では,第3章で提案した学習方法をより一般的な連続空間での学習環境に拡張し,マルチエージェント協調学習の方法としての一般性を示した.具体的には,エージェントは自分を中心とした相対グリッドにより環境の情報を状態変数化した(図3).シミュレーション環境としてRoboCup標準サッカーサーバを用いた.

 既存のサッカーエージェントYowAIの基本スキルをベースとし,意思決定部分を本研究の予測とリスク計算に基づく方法によるもので置き換えた.ミニゲームに参加するエージェント数は,シミュレーション1と同様に3対2とする.

 計算量爆発を防ぐため,適当な情報の簡略化を行った.visibilityという,ボールと敵の位置関係により定義される空間の安全指標と,味方と敵のどちらの数が優位か,の指標に基づき,各グリッドを3つの属性値(有利,不利,どちらでもない)に分類する.

 状態の効用値の学習については,第1章と異なり,相対グリッドによって状態変数化されており,報酬を与えるための明確な課題達成の終端条件がない.逐次報酬として,味方間でパスが通ったときの状態系列に対して報酬を与える.

 比較として,ベースとなるエージェントによる同様の環境でのシミュレーションを行った.ベースエージェントYowAIは,パスが出せる味方を選んでその方向にパスを出す,という行動をする.

 シミュレーションの結果,攻撃側のボール支配時間について比較を行った.300秒のミニゲームを500回繰り返した結果,学習エージェントのボール支配時間は,ベースエージェントの支配時間を有意に上回った(図4参照).これは,状態表現にvisibilityというパスに関する空間の安全指標を導入したことにより,安全な空間がどこにできるかについて予測ができるようになっているからだと考えられる.

 以上より,本研究は,まず,グリッド上での局所領域でのミニゲーム環境において,空間的に俯瞰図として与えられる状態をもとにしたエージェントやボールなどオブジェクトの予測とリスク計算の学習を行い,協調戦術の獲得が可能なことを示した.ここで協調戦術とは,うまくパスを通すために都合の良い位置を探すというものではなく,常に,他エージェントの行動を予測し,評価しながら,自らもホームポジションなどに拘束されず移動することで,オープンスペースを介したパスなどを可能にするような,エージェント間の行動の相互予測に基づく行動であり,人間がサッカーを行う際の意思決定に近いものである.以上の方法は,動的環境下の学習としで頑健であることが示された.

 次に,より物理的な環境,つまり連続空間でシミュレーションするにあたり,相対グリッドを導入した.これにより,3×4の絶対グリッドでは,主にオブジェクトがどこにいるか,という情報を用いて意思決定を行っていたものが,フィールドのvisibilityの概念により,オブジェクトの予測から,空間の予測を行うようになった.この予測に基づく意思決定が,中盤でのボール支配時間を増やすことを示した.

 以上の予測とリスク計算の学習に基づく意思決定により,従来の機械学習では実現できなかった,相互予測に基づく協調学習を可能にすることを示した.

図1:壁パス

図2:ワン・ツー・パス

図3:相対グリッド化

図4:左:学習エージェントのボール支配時間,右:既定エージェントのボール支配時間

審査要旨 要旨を表示する

 サッカーエージェント研究は,協調行動を特徴とするサッカーをロボットやエージェントに遂行させることを目的とし,研究開始時にはマルチエージェントによる協調学習の問題に対する貢献が期待されていた.しかしながら,現状では,フォーメーションやポジションの学習が中心となっており,当初の期待に応えているとは言いにくい.というのも,フォーメーションやポジションの決定は,エージェントがお互いの動きを予測しながら積極的な相互作用を行うことによって生じる協調戦術とは言えないからである.そこで本論文では,敵や味方の動きの予測をもとに行う協調戦術の学習のモデル化を通して,マルチエージェントシステムにおける学習による協調作業の獲得機構および協調学習の新しい方法を提案し,評価することを目的としている.具体的には,人間の初心者にサッカーを指導する際の指導法に基づいた学習方法を,意思決定手法と強化学習の枠組を用いてサッカーエージェントの学習として定式化,適用することを試みる.

 第一章では,マルチエージェントシステムにおける学習の問題と,サッカーエージェント研究の動向について紹介している.そして,サッカーエージェントを実際のサッカープレイヤと比較したとき,これまで考慮されてこなかった戦術(スキルでも戦略でもない)が協調学習にとって重要なことを述べている.

 第二章では,まず,著名なサッカー指導者Hughesによる,人間の初心者にサッカーの協調戦術を学習させる方法について述べている.そして,この方法では,1)フィールドを小領域に分けて領域の広さと性質に応じた戦術を学習させるのが重要なこと,2)サッカーの戦術決定とは,他プレイヤの行動の予測と状態のリスク計算の最適化であること,が強調されていることを述べている.

 次に,このHughesの学習方法に基づきエージェントプログラムを構築し,協調戦術を学習によって獲得する過程をシミュレートする,という方針が明確にされており,エージェントの設計と学習のモデル化が詳細に述べられている.具体的にエージェントは,

 1.状況をグリッドにより離散状態変数化し,

 2.状態間の条件付確率(他エージェントの振舞い傾向についての情報を与える)をプレーの経験により学習し,

 3.与えられた課題の達成(もしくは失敗)に基づき,(profit sharing法に類似した方法で)経験済みの状態の効用値を増減させ,状況に応じたリスク計算を学習する.

 第三章では,シミュレーション実験を行う環境とその結果について述べている.具体的には,3×4のグリッドで攻守3対2の環境でのシミュレーションが行われた.その結果,

 1.本エージェントが,学習によって,壁パスやワンツーパスのような小人数による基本的な協調戦術を獲得できたこと,

 2.オープンスペースを使ってやり取りされるパスが学習によって増加し,それにつれて,攻撃側(3エージェントからなるチーム)の勝率が有意に増加したこと,

 3.強化学習の代表的方法であるQ-learningと比較して,マルチエージェントの動的環境下での学習として本方法が頑健性がもつこと,

が示されている.

 第四章では,第三章で提案した学習方法をより一般的な連続空間での学習環境に拡張し,マルチエージェント協調学習の方法としての一般性を示している.具体的には,既存のサッカーエージェントで,単純な動作ルールを用いながらもRoboCupチャンピオンチームCMUnitedを下すほどの高いパフォーマンスを示すチームYowAIの基本スキルをベースとし,意思決定部分を第三章で提案した予測とリスク計算に基づく方法によるもので置き換えている.さらに,計算量の問題から,エージェントは自分を中心とした相対グリッドにより環境の情報を状態変数化している.シミュレーション環境としてRoboCup標準サッカーサーバが用いられた.

 このような設定のもとで,学習課題として,1)味方間でパスが通れば報酬がもらえる課題(ボール支配課題),2)第三章と同様にエンドラインを突破すれば報酬がもらえる課題(防御突破課題),3)11対11形式のゲーム課題,の3種類のシミュレーションを行っている.その結果,いずれの課題においても,本論文の学習エージェントはYowAIエージェントを上回るパフォーマンスを示したことが述べられている.

 第五章では,第三章と第四章のシミュレーション結果がまとめられている.続く第六章で関連研究における本研究の位置付けについて,第七章で本論文のまとめが述べられている.

 以上のように,本論文は,これまで例のなかった,マルチエージェントが動的な環境下で相互に動作モデルを学習し合うことで協調戦術を獲得していくための学習方法を提案しており,サッカーエージェント研究やマルチエージェント研究に大きく貢献するものと言える.また本モデルは,人間の協調学習の認知モデルとしても意味をもつと考えられる.

 したがって本論文は,マルチエージェント研究やサッカーエージェント研究の分野において独創性を有し,大きな貢献をもたらすものであると判断し,博士(学術)の学位を授与するにふさわしいものと審査委員会は認定する.

UTokyo Repositoryリンク