-
公开(公告)号:CN118014000A
公开(公告)日:2024-05-10
申请号:CN202410198216.7
申请日:2024-02-22
Applicant: 浙江大学
Abstract: 本发明提出一种基于零阶优化的分级式拓扑下的多智能体强化学习方法,包括,对环境中的所有智能体进行预分组并构建一种分级式拓扑交流结构;智能体与环境交互获取到本地的目标函数信息;通过分级拓扑交流结构对本地目标函数进行聚集并处理;最后智能体利用全局目标函数估计信息计算获得零阶梯度,更新策略网络梯度。本发明提供了一种基于零阶优化的分级式拓扑下的多智能体强化学习方法,该方法能在保证收敛性能的基础上,提升了交流效率,分担了智能体的通信压力。