-
公开(公告)号:CN116151364A
公开(公告)日:2023-05-23
申请号:CN202211693711.2
申请日:2022-12-28
Applicant: 中国长峰机电技术研究设计院
Abstract: 本发明公开了一种具有显式通信机制的多智能体强化学习方法及装置,所述方法包括:在多智能体之间建立显示的通信‑共享机制;通过所述通信‑共享机制获取同队智能体和异队智能体的感知数据、环境信息;利用基于A3C的深度强化学框架、同队智能体和异队智能体的感知数据、环境信息进行策略训练,确定各个智能体的当前模型参数,各个智能体基于当前模型参数进行动作选择。本发明能够较好地融合无线通信技术与强化学习技术的优点,能够较好地对复杂环境下的敌我双方多智能体及环境信息进行感知,利用基于A3C的深度强化学框架进行强化学习训练,有效地降低多智能体博弈对抗学习的难度,为解决未来无人协同对抗问题提供新的有效途径。