一种用于多智能体强化学习中的对比学习表征方法

    公开(公告)号:CN117634645A

    公开(公告)日:2024-03-01

    申请号:CN202311645312.3

    申请日:2023-12-04

    Applicant: 南京大学

    Abstract: 一种用于多智能体强化学习中的对比学习表征方法,配置多智能体系统的环境参数,建立智能体策略网络、值分解系统以及多头注意力机制;通过智能体与环境交互,收集智能体的部分观测和全局状态,获取环境奖励,存放至经验回放池用于训练;然后从经验回放池中采集一个批次的数据,使用多智能体强化学习算法训练策略网络寻找能够获取最大累积奖励的最优策略,并定期使用对比学习约束智能体学习跟行为模式相关的角色表征,实现多智能体强化学习。本发明提出基于注意力引导的对比学习表征方法,在具有更快的收敛,并且具有更高效的探索,能够有效的避免智能体的同质化,从而在复杂动态环境中有效提高多智能体强化学习算法的学习效率和收敛速度。

Patent Agency Ranking