学位論文要旨



No 128678
著者(漢字) 刘,澍
著者(英字)
著者(カナ) リュウ,ジュ
標題(和) Baldwin進化における学習能力の遺伝
標題(洋) Learning Potential Inheritance in Baldwinian Evolution
報告番号 128678
報告番号 甲28678
学位授与日 2012.09.27
学位種別 課程博士
学位種類 博士(工学)
学位記番号 博工第7852号
研究科 工学系研究科
専攻 電気系工学専攻
論文審査委員 主査: 東京大学 教授 伊庭,斉志
 東京大学 教授 石塚,満
 東京大学 教授 峯松,信明
 東京大学 准教授 佐藤,周行
 東京大学 准教授 三田,吉郎
 東京大学 准教授 鶴岡,慶雅
内容要旨 要旨を表示する

Evolutionary algorithms imitate organism evolution in the natural world, and are proved effective and efficient to handle optimization problems, especially when the search space is huge and the landscape is irregular. To accelerate evolution, and to overcome even more difficult problems, researchers have been trying to combine evolution with learning techniques in the recent decades. Baldwinian evolution is a hybridization of evolution and learning. It claims that learning throughout the individuals' lifetime can guide evolution to better solutions, without transferring acquired characters back into genotypes. The theme of this thesis is to study Baldwinian evolution's mechanisms. This thesis is on Baldwinian evolution and the search efficiency issue.

Baldwinian and Lamarckian evolution are different in inheritance, and this makes their learning processes playing significantly different roles in the whole search. Considering computational resources, the cost-performance also varies. We investigate Baldwinian evolution's mechanism, in term of computational costs and fitness improvements, to find what is produced in Baldwinian learning, and what role Baldwinian learning plays. We found that, on the static landscapes involved, learning cost is paid to maintain a certain level of potential to reach good solutions, rather than to further explore on the landscape. Plasticity codes in genotypes can help in selecting appropriate parts to refine and improve search performance. However, this improvement remains limited because no learned traits are passed on, and does not enable exploration far beyond parents.

In Baldwinian evolution, refined fitness influences selection. However, unlike Lamarckian evolution, refined traits are not passed on to the offspring. This loss of refined trait information implies that the guiding effect of learning comes from the inheritance of learning potential. Offspring do not directly inherit beneficial traits, but instead inherit genes that lead to beneficial traits after their lifetime learning. We verified the existence of such potential, and then study how it works. The realization of learning potential, namely, how learning behavior compares to the previous generation's learning, are studied, in addition to how much learning improves the current generation's initial phenotypes. Since children are affected by learning schemes and genetic operators, they may prefer either to follow and repeat their parents' learning, or to explore a new direction. We investigate how learning schemes and genetic operators affect the realization of learning potential, and, in turn, how this influences search performance. The results show that learning schemes and genetic operators have different impacts: uncertainties in learning schemes slow down speeds and lower fitness, whereas genetic operators balance exploitation and exploration. The guiding effect of Baldwinian learning is thus implied to originate from only what children can inherit or follow.

Furthermore, learning cost punishment is an essential factor in Baldwinian evolution. In Baldwinian algorithms, a selective penalty on individuals with high learning costs is usually implemented by the addition of a negative term to the fitness function. This penalty is necessary for genetic assimilation, and influences the search by limiting the increase of learning intensity. Although a cost penalty can accelerate search, it sometimes inhibits the discovery of better solutions. Appropriate design of a penalty is important for building effective algorithms; however, the exact effect of penalties and how best to design them is still not fully understood. This thesis also investigates the mechanisms of cost penalties in depth, focusing on their influence on learning intensity during the search phase. Our results show that genetic assimilation may start long before search convergence, and cost penalty effects may vary considerably dependent on the employed selection scheme. A selection scheme has to provide competitions of individuals learning the same traits, to guarantee the occurrence of genetic assimilation. High punishments transform the landscape significantly, and assign individuals learning the same traits different fitness. It is a substitution of converged individuals' structural competitions, but has the side-effect of inhibiting the "smoothing" effect.

In the thesis, we present three sets of experiments, and collect some conclusions about Baldwinian evolution's mechanisms. The findings provide new mechanism knowledge, as well as design rules that may be useful in application attempts. These three parts are connected to each other, under the new aspects of viewing the evolution-learning hybridization beyond conventional studies. We also discuss how these ideas can be extended further, to reveal more about Baldwinian evolution. We follow the spirit of analysis, study isolated algorithm components instead of entire algorithms, and study individual dynamics instead of group behaviors.

In this thesis, Baldwinian evolution's mechanisms are studied, in order to attain in-depth understanding of the theory, and ultimately to design effective and efficient algorithms for real world tasks. Differing from conventional researches, we divide algorithms to components, and groups to individuals. The change in the view point enabled us to reveal new knowledge about Baldwinian evolution. The findings provide directions to applications, as well as materials for biology and philosophy.

審査要旨 要旨を表示する

本論文は「Baldwin進化における学習能力の遺伝」という題目で,全6章からなり,Baldwin進化の原理を探究することを目的とし,数値シミュレーションによって構成要素の探索性能への影響を明らかにしている.

第1章は序論であり,主題と目的が述べられ,集団進化の過程に個体学習を組み込むというBaldwin進化の枠組み,及びその効果が説明されている.Baldwin進化に関する既往研究が紹介され,本論文が採用した,「各構成要素ずつ考察する」,「個体行為を考察する」という視点が解説されている.

第2章は,Baldwin進化の集団・個体が持っている潜在的な学習能力について議論されている.世代内・世代間の適応度変化の比較によって,Baldwin学習とLamarck学習の効果,すなわち各学習方法の異なる役割が分析されている.3種類の問題に対して,上記2種類の学習方法を用いたシミュレーションを行い,その結果を比較することによって,Baldwin学習の探索過程への影響について考察する.その結論の信頼性を強化するため,25種類の連続関数ベンチマークを用いたシミュレーションも考察している.この結果に基づいて,Baldwin学習の作用は潜在的な学習能力を選出・維持するという解釈を得るとともに,学習期間変化を平穏化するという計算効率向上のためのデザイン原則を提案している.

第3章において,Baldwin進化中の潜在的な学習能力の遺伝及び実現が議論されている.連続する2世代の学習過程を比較し,子供世代が親世代の学習成果を再現する程度,ならびに学習成果の再現が探索効率へ及ぼす影響について考察している.学習成果の再現に影響を与える二つの要素,即ち学習方法と交叉変異方法について考察し,異なる作用効果が見られることを確認している.数値実験において,3種類の学習方法・交叉変異方法に関して3種類の問題で比較を行い,学習過程の再現程度と全体の探索性能を考察している.学習方法の不確定性によって学習は再現し難くなるため,子供世代の学習過程が変わり,親世代の学習成果は失われてしまう.さらに,25種類の連続関数ベンチマークを用いたシミュレーションも考察し,同じ結論が得られることを検証している.その結果,探索が非効率的且つ非効果的になることが示される.交叉変異方法は良い遺伝子構造を分解・破壊し,学習の再現を阻止していると同時に,集団の多様性を促進している.故に,探索性能のために,学習方法の不確定性をなるべく低くし,交叉変異方法による変化は適切なレベルに維持する,というデザイン原則を提案している.その上で,Baldwin学習の成果は,その継承・再現できる部分だけが探索全体に貢献するという解釈を提案している.

第4章においては,Baldwinアルゴリズムの適合度が学習代価によって罰されることの影響について考察している.従来のBaldwin進化の研究では,学習代価のペナルティ値が「微小」と仮定され,実際に使用される数値は任意に指定されることが多かった.しかし,探索中における学習代価の作用は無視できると仮定される一方で,収束後,その作用は習得特性を遺伝子に固定させられると考えられる.「個体行為を考察する」という視点から,毎世代の学習代価の影響を計量すれば,その作用がより正確に測れる.4種類のペナルティ係数および2種類の選択方法について,3種類の問題で数値実験し結果の比較を行って,選択の効果と探索の性能を考察している.その結果に基づいて,代価のペナルティ値が探索の目標を変える,そして選択手法の影響はペナルティ値よりも大きいという解釈を提案している.

第5章では,本論文の主題である「構成要素ごとに個体行為を考察する」という視点について議論する.従来の「集団を考察する手法」の欠点を詳述し,本研究で得られた知見とその意義を説明している.さらに,今後の更なる発展の可能性についても議論している.

第6章においては,本論文の結論として,提案した考察・視点について再度触れ,その視点で得られたBaldwin進化原理についての新たな知見とそれを応用するデザイン原則がまとめられている.また,この研究の意義について述べられている.

以上を要するに,本論文はBaldwin進化についての新しい解釈とそれを応用するデザイン原則の1つを提案し,数多くの数値実験の結果を基にその有効性を示しており,情報工学の発展に貢献するところが少なくない.

したがって,博士(工学)の学位を授与できると認める.

UTokyo Repositoryリンク