TR-H-0159

TR-H-0159 :1995.7.25

石井信

強化学習によるゲーム戦略の獲得

Abstract:本研究ではオセロを対象として，はじめにTemporal Difference Learning(TD法）によってニューラルネットワークが強くなることと，TD法によるネットワークの学習においてもモーメント法が有効であることを示す．また仮教師と対戦することで学習を行う方法において，仮教師の強さが学習にどのような影響を与えるかについて調べる．次にTD法による学習を加速する方法として，はじめに仮教師と対戦し，その後で自分自身で対戦する方法とはじめに最終状態を学習し，その後で自分自身と対戦する方法とを検討する．