-
公开(公告)号:CN110119804A
公开(公告)日:2019-08-13
申请号:CN201910375250.6
申请日:2019-05-07
Applicant: 安徽大学
Abstract: 本发明公开了一种爱恩斯坦棋中基于深度强化学习的自学习博弈算法,将BP神经网络运用到棋盘的价值评估方法以及在蒙特卡洛树搜索算法的动作选择策略中,借助强化学习方法自对弈学习规则,对棋盘的特征进行学习并逐渐调整网络参数,使得BP神经网络对于棋盘的价值评估以及下棋动作的策略计算逐渐准确,从而使整个博弈算法的性能逐渐提升。本发明将两个BP神经网络分别作为爱恩斯坦棋的价值估值函数和行为策略函数,将强化学习算法作为调整BP神经网络参数的进化机制,解决了目前爱恩斯坦棋训练集的水平受到人类水平限制的缺陷,提高了爱恩斯坦棋博弈水平的上限。