一种基于PPO的多智能体深度强化学习训练方法

    公开(公告)号:CN116306979A

    公开(公告)日:2023-06-23

    申请号:CN202310287951.0

    申请日:2023-03-23

    Applicant: 南京大学

    Inventor: 路通 沈彦杰

    Abstract: 本发明提出了一种基于PPO的多智能体深度强化学习训练方法,包括:设计智能体的决策动作空间;设计智能体的回报函数;设计多智能体决策网络模型;通过推演线程进行推演,使用经过初始化的多智能体决策网络模型,与智能体所处的环境进行交互,生成回放数据;通过学习进程,使用所述回放数据更新多智能体决策网络模型,完成基于PPO的多智能体深度强化学习训练。本发明通过对决策空间的特殊处理及动作网络中多头设计,解决了决策空间复杂性问题;对每个智能体的状态处理及动作生成方法的设计,是一种多智能体决策的有效解决方案;使用多进程和多线程结合的训练运行方法,有效提高训练效率。

Patent Agency Ranking