一种多智能体孪生注意力强化学习系统及方法

    公开(公告)号:CN117236385A

    公开(公告)日:2023-12-15

    申请号:CN202311122126.1

    申请日:2023-09-01

    Abstract: 本发明公开了一种多智能体孪生注意力强化学习系统及方法,涉及多智能体深度强化学习技术领域,每个智能体通过在与多智能体环境交互时最大化累积奖励来学习,通过四个神经网络的协同作用,智能体通过延迟衰减策略在执行期间做出决策,最终可使每个智能体与环境交互,获取观察结果,并采用延迟衰减策略进行决策和执行操作,环境同时给智能体相应奖励反馈并进行下一次观察,全部过程存储在经验重放存储器,使孪生注意力评判器、延迟衰减策略的目标和孪生注意力评判器的目标完成训练,以实现解决多智能体环境下的联合高估和次优策略问题。每个智能体通过在与多智能体环境交互时最大化累积奖励来学习,与之前的方法相比具有竞争性的性能。

    一种多智能体分布式深度确定性策略梯度跟踪方法

    公开(公告)号:CN117114136A

    公开(公告)日:2023-11-24

    申请号:CN202311122128.0

    申请日:2023-09-01

    Abstract: 本发明公开了一种多智能体分布式深度确定性策略梯度跟踪方法及系统,涉及多智能体强化学习技术领域,通过多智能体强化学习架构,采用了去中心化执行的多智能体分布式训练,使其中每个评判器只考虑智能体和邻域智能体,可以达到在较短的训练时间内获得了更高的奖励反馈。将分布式跟踪智能体的观察结果通过策略梯度函数和最小化损失的更新函数。最终得到了每个智能体的目标参与者网络和目标评判器网络的参数,以实现更有效的多智能体跟踪方法,改进了中心化训练不适用性的效果。提高实用性,且为进一步研究打下了基础,多智能体分布式深度确定性策略梯度具有更短的时间成本和更好的训练性能。

Patent Agency Ranking