学位論文要旨



No 117787
著者(漢字) 舛本,現
著者(英字)
著者(カナ) マスモト,ゲン
標題(和) ラムダゲーム : メタゲームへのアプローチ
標題(洋) The Lambda Game System : an approach to a meta-game
報告番号 117787
報告番号 甲17787
学位授与日 2003.03.28
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第423号
研究科 総合文化研究科
専攻 広域科学専攻
論文審査委員 主査: 東京大学 助教授 池上,高志
 東京大学 助教授 安冨,歩
 東京大学 教授 金子,邦彦
 東京大学 助教授 開,一夫
 東京大学 教授 玉井,哲雄
内容要旨 要旨を表示する

 ゲームにおける戦略のopen-endな進化は,人工生命の研究において重要なテ-マであり,これまでも様々な研究がなされてきた.これらの研究でその基礎となっているのはゲーム理論であるが,そこではゲームとは一般的にルールが固定されており,各プレイヤーはそのルールが規定する戦略(選択肢)のなかでどの戦略が自分の利得を最大にするかを考え,選択し,それに応じた利得を得るものとして扱われている.

 しかしルールが固定され,そのなかでの最適な行動が存在するのならopen-endな時間発展など不可能であり,あとに残るのは,本当は最適な戦略があるのだが人間の推論能力や計算能力が限られているからそこに到達しえない,という限定合理性の問題だけになってしまう.そこで多くのopen-endな時間発展を扱う研究では,非常に限定されたかたちではあるが,戦略の空間にopennessを導入した.それはある時は記憶戦略における記憶の長さであり,また各個体のつくる相手のモデルの決まらなさであったりした.

 しかし他方にはルールにこそ戦略をopen-endに発展させる源があるという見方がある.これはつまりルールがopenであることこそが戦略のopen-endednessを生み出すという立場である.例えば,社会におけるルールというのは多くの場合,自然言語で記述されており,自然言語であればもちろん解釈は開かれているから,現実の社会における戦略は多様でありえると考える.ルールのopennessを導入したモデルでは,例えばHowardのmeta-game theoryのように囚人のジレンマにおいて「あなたが協調するなら私も協調し,あなたが裏切るなら私も裏切る」といったルールに言及するメタ戦略を(one-shotのゲームでも)許すような枠組を用いたり,あるいはHofstadterが紹介したNomicというゲームのようにすべてのルールを明示的に自然言語で書き,それを更新していくゲーム(「これらのルールを書き換えよ」というルール)を考えたりすることが行われる.

 ではルールのopennessというのはどのようにして可能になるのであろうか.ルールは戦略の定義域を規定してそれらの組に対する利得を決定し,各プレイヤーはルールの定義域の範囲内の戦略で利得の最適化を図る.このような点において,ここで考えているゲームにおけるルールと戦略というのは,関数と変数のような関係にあるといえよう.通常のゲーム理論の枠組みでは,変数(戦略)は決して関数(ルール)の規定する定義域の外に出ることはできないし、関数(ルール)も定義域の外の入力(戦賂)に対しては出力(得点)を与えることはできない.

 一方,ここで考えたいルールが開かれているゲームというのは,いわば遊び(プレイ)と呼ぶべきもので,そこでは定義域が開かれているので,ルールは定義域の外の入力に対しても出力を返さなくてはいけない.ここで要求されているのは,定義域を限定せずにどんな入力に対してもとりあえずは出力を返す体系である.そのためには定義域のクラスが関数自体のクラスと同じくらい広く,関数と変数,すなわちルールと戦略,が同じformatで書かれているtype-freeなものでなければいけない.

 そこで本研究ではゲームを記述するためにλ計算を導入する.λ計算はtype-freeな計算体系であり,このことはすなわち全てのλ式が関数と変数のどちらにもなれることを意味している.またλ計算ではゲームの利得表を記述するのに必要な真偽値やif文,自然数を表わすことができる.

 具体的なゲームとしては各プレイヤーがそれぞれ「協調(=C)」と「裏切り(=D)」という2つの戦略をもつone-shotの囚人のジレンマゲ-ムを考える.このゲームを構成する要素である「ルール」,「プレイヤーの戦略」,「利得」をすべてλ式で表すことによって上で述べたようなtype-freeなゲームを構成することができる.

ここでゲームのルールに求められるのは,2人のプレイヤーが出したこれら2つの戦略の組に対して利得となる自然数を返すことである.そこでここでは戦略としてBarendregtが導入した真偽値の表現(T=λxy..x,F=λxy.y)を用い,自然数の表現として以下のように再帰的に定義されるBarendregt数を用いた.O=λx.x,n+1=λx.xFn.真偽値と自然数が定義されたので,ルールとしてのgame masterのλ式(=G)は2重のif文として以下のように構成することができる.G=λx.x(λy.y35)(λy.y01)(ただしここで0,1,3,5はBarendregt数である).

 以上のようなゲームの定式化のもとでは,ゲームのルール(=G),得点,戦略(=T,F)がすべてλ式で表現されている.しかし前述したようにλ計算はtype-freeな体系なので,ここで定義されたゲームのルール(=G)は元々想定されていた戦略であるT,F以外の任意のλ式も入力として受けつけることができる.

 そこで本研究では,まず計算機シミュレーションによりランダムに生成したλ式を戦略としてgame masterに代入したときにどのような反応が起こるのか,game masterは数を返すのか,もし数を返すのならばそれは元のゲームのマトリクスの得点とどのような関係にあるのかを調べた.

 その結果として,元々のゲームのルールが用意した元々の利得表にないような利得を獲得する多くのλ式の戦略がみつかった.すなわちこれらのλ式がGに代入されると元のgame masterには0,1,3,5の各得点しか書かれていないにもかかわらず,それ以外の得点(例えば2点や6,点)を利得として返す.

 これらの戦略はgame masterのλ式のif文の内容("if x then A else B"のAやB)を参照することでif文そのものと干渉を起こし,ゲームのルールを出し抜くことを可能にしている.すなわち自分がこれから代入されるλ式がどのような得点の選択肢を持っているかを判断して異なるif文には異なる対応をすることによって高得点をとっていることが明らかになった.

 さらにいくつかの戦略はルールであるλ式のif文から「足す1(successor)」「引く1(pre-decessor)」という関数を合成して,元のif文に書かれている数字に対して操作をほどこしてから自分の得点にするということによって高い利得を得たり,相手の得点を計算するときには定数関数,つまり入力に関係なく一定の数を返す関数を合成することによって相手の得点を低く抑えるような振舞いもみられた.

 さらにλ式の集団を用意して上で定義したλゲームでの利得を適応度とする環境で進化させたときにどのような戦略の集団が生まれるかを調べた.ここでは進化オペレータとしてはλ式に遺伝的プログラミング(GP)と同様の手法で変異と交叉をおこなった.

 その結果として,ある程度λ式の複雑さが増すと,ランダムに生成されたλ式よりもさらに高得点を得る戦略が生まれた.これらの戦略は「足す1(successor)」という関数を複数個組み合わせることにより高い利得を得ている.またあるタイプの戦略が他の戦略の侵入に対してある程度ロバストであることがわかった.

審査要旨 要旨を表示する

 学位論文として提出された舛本氏の博士論文は、ゲーム型の相互作用をラムダ計算を用いて形式化し、ゲームの開放性という側面を明らかにすることを目的とする。ここでいう開放性とは、ゲームの規則からは予測できないゲームの運用のされかたのことである。具体的にはゲーム戦略とゲームマスターのラムダ式による表現という枠組みの中で、予期しえなかったゲーム戦略のありようを計算機シミュレーションを手法として解析したものである。

 本論文は全6章から成っている。第1章では、研究の目的と動機が簡潔に解説されている。特に既存のゲーム理論では扱えないゲームの「開放性」の側面と、それを越える試みとしてのハワードのメタゲーム論の話が紹介される。

 第2章では、ラムダ計算によるゲームの新しい計算モデルが提案される。まずラムダ計算を簡潔に導入した後で、本論文の要であるラムダ式によるIF文形式によって、ゲームマスター(戦略を2つ受けとり、それらにゲームをさせて得点を割り振るもの)を構成する。またゲームの得点はラムダ式による自然数表式(バレントリヒト数)で表現する。この枠組で囚人のジレンマゲームを形式化する。囚人のジレンマゲームは、協調と裏切りの2つの手と、得点のジレンマ性で特徴つけられるが、それをラムダの真偽値関数で表現したことで、以後のゲーム的解釈を可能としている。

 第3章では、ある制約のもとにランダムに生成した、ゲーム戦略としてのラムダ式の構造を報告する。特に、戦略の総当たり戦で実現した得点の分布とラムダ式の構造が示される。与えられた2つの戦略が与え合う得点は、第2章で導入されたゲームマスターに順次適応することで計算される。この得点を計算する途中であらわれる構造をもとに、第4章では4第3章で得られた戦略をタイプわけする。その解析の中で何故、相手から搾取しお互いどうしで搾取しあわない、協調的とよべるラムダ式が出現するかが議論されている。それを1章で紹介したハワードのメタゲーム論の視点から再解釈し、まとめている。

 第5章では戦略を準化させる実験シミュレーションの方法と結果の報告がなされ乱ラムダ式によって表された戦略集団を、遺伝的アルゴリズムを用いて進化・淘汰させることで、ゲームの得点を適応度とみなした時に選ばれる戦略を議論する。ひとつの結果として、再帰的に得点を高くとらせるような戦略の構造が進化することが示された。

 第6章は全体の総括であり、ラムダ計算によるゲームの形式化によるゲームの開放性を捉えたいという論文提出者の姿勢が再確認される。

 本論文は、ラムダ計算によるゲームの表現、「ラムダゲーム」というまったく新しいモデル化をおこなったものである。論文は、簡潔に論旨を通して書かれており、ゲームの新しい表現を作りたいという精神は明白である。ラムダゲームはゲーム論の新しい方向を示したが、同時にゲームの時間発展を考えていく上での困難さも明白にしている。今後の研究の発展が期待されるものである。

 以上、当博士論文の研究は、十分に独創的なゲーム理論の再形式化を今後考えていく際の、ひとつの手本を指し示したといえるだろう。本論文で提案された、ゲームの開放性を考えるという方向性が認知科学などの分野への普及が期待できる。また本論文で挙げられた解析のうち第3、4章の部分が、審査つきの論文としてすでに掲載すみである。また5章を含めて投稿準備中である。

 以上のように論文提出者の研究は、ラムダ計算によるゲームの理解に関して独創的な提案をなしていると考えられる。

 以上の点から本論文は博士(学術)の学位を与えるのにふさわしい内容であると審査委員会は全員一致で判定した。

UTokyo Repositoryリンク