-
公开(公告)号:CN111291890B
公开(公告)日:2021-01-01
申请号:CN202010399728.1
申请日:2020-05-13
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种博弈策略优化方法、系统及存储介质,该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
-
公开(公告)号:CN111260040A
公开(公告)日:2020-06-09
申请号:CN202010370070.1
申请日:2020-05-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本发明的有益效果是:较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。
-
公开(公告)号:CN111260039B
公开(公告)日:2020-08-07
申请号:CN202010369831.1
申请日:2020-05-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于辅助任务学习的视频游戏决策方法,包括以下步骤:S1、构建神经网格模型;S2、启动多进程视频游戏环境;S3、判断是否运行了指定轮次,如果否,则进入步骤S4,如果是,则进入步骤S6;S4、获取游戏经验,更新经验池;S5、将经验输入到神经网格模型,更新神经网格模型参数,返回步骤S3;S6、保存神经网格模型;S7、在视频游戏里利用神经网格模型决策;S8、结束。本发明的有益效果是:可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。
-
公开(公告)号:CN111260039A
公开(公告)日:2020-06-09
申请号:CN202010369831.1
申请日:2020-05-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于辅助任务学习的视频游戏决策方法,包括以下步骤:S1、构建神经网格模型;S2、启动多进程视频游戏环境;S3、判断是否运行了指定轮次,如果否,则进入步骤S4,如果是,则进入步骤S6;S4、获取游戏经验,更新经验池;S5、将经验输入到神经网格模型,更新神经网格模型参数,返回步骤S3;S6、保存神经网格模型;S7、在视频游戏里利用神经网格模型决策;S8、结束。本发明的有益效果是:可以更准确地估计三维场景中的状态价值以及引起状态改变的智能体动作。
-
公开(公告)号:CN111260040B
公开(公告)日:2020-11-06
申请号:CN202010370070.1
申请日:2020-05-06
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种基于内在奖励的视频游戏决策方法,包括以下步骤:S1、获取视频游戏模拟环境;S2、构建神经网络模型;S3、设计内在奖励模型;S4、将内在奖励模型与构建的神经网络模型结构结合;S5、通过模拟环境获取游戏的记录;S6、通过获取的游戏记录,更新神经网络模型;S7、循环训练神经网络模型直至收敛。本发明的有益效果是:较好的解决了三维场景中较为常见的缺乏环境反馈奖励值的问题。
-
公开(公告)号:CN111291890A
公开(公告)日:2020-06-16
申请号:CN202010399728.1
申请日:2020-05-13
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供了一种博弈策略优化方法、系统及存储介质,该博弈策略优化方法包括建立基于最大熵的策略递度算法步骤和多智能体最优反应策略求解步骤。本发明的有益效果是:本发明采用中心化训练和分散式执行的方式,提高动作估值网络的准确性,同时引入了全局基线奖励来更准确地衡量智能体的动作收益,以此来解决人博弈中的信用分配问题。同时引入了最大熵方法来进行策略评估,平衡了策略优化过程中的探索与利用。
-
-
-
-
-