TR-H-0159 :1995.7.25

石井信

強化学習によるゲーム戦略の獲得

Abstract:本研究ではオセロを対象として,はじめにTemporal Difference Learning(TD法)によってニューラルネットワークが強くなることと,TD法によるネットワークの学習においてもモーメント法が有効であることを示す. また仮教師と対戦することで学習を行う方法において,仮教師の強さが学習にどのような影響を与えるかについて調べる. 次にTD法による学習を加速する方法として,はじめに仮教師と対戦し,その後で自分自身で対戦する方法とはじめに最終状態を学習し,その後で自分自身と対戦する方法とを検討する.