-
公开(公告)号:CN118278494A
公开(公告)日:2024-07-02
申请号:CN202410489938.8
申请日:2024-04-23
Applicant: 中国科学院自动化研究所
IPC: G06N3/092 , G06N3/0455 , G06N3/098 , G06N5/04
Abstract: 本发明提供一种用于兵棋推演的可扩展大规模博弈强化学习方法及装置,涉及强化学习技术领域,所述方法包括:构建可扩展的大规模博弈兵棋推演对抗场景;确定强化学习的状态空间、动作空间和奖励构成;基于分组的注意力网络,将联合策略拆分为分组策略,进行博弈对抗中智能体的学习和训练。本发明提供的用于兵棋推演的可扩展大规模博弈强化学习方法及装置,将注意力机制引入多智能体问题中,增强模型在处理长序列观测状态时的学习能力,智能体间的协同关系会通过梯度的优化不断得到强化,最终使得整个协同任务的完成效率达到最大。