一种编队包围的多智能体强化学习方法

    公开(公告)号:CN112966816B

    公开(公告)日:2024-12-10

    申请号:CN202110346490.0

    申请日:2021-03-31

    Applicant: 东南大学

    Abstract: 本发明是一种编队包围的多智能体强化学习方法,特别适用避碰要求和简单闭的包围轨线,包括如下步骤:a)确定强化学习环境中每个智能体的状态空间、动作空间和奖励函数;b)设计每个智能体的演员网络和评判家网络结构;c)由每个智能体的当前状态通过演员网络确定其动作,进而与环境交互得到该动作的奖励值和智能体下一步的状态;d)由所有智能体的动作、当前和下一步的状态通过评判家网络分别确定状态和动作价值函数,进而设计损失函数;e)根据反向传播算法重复步骤c)和d)更新演员和评判家网络中的权值直至期望要求。此种方法简单可靠、不依赖系统模型,能够快速地实现复杂环境中的编队包围任务。

    一种编队包围的多智能体强化学习方法

    公开(公告)号:CN112966816A

    公开(公告)日:2021-06-15

    申请号:CN202110346490.0

    申请日:2021-03-31

    Applicant: 东南大学

    Abstract: 本发明是一种编队包围的多智能体强化学习方法,特别适用避碰要求和简单闭的包围轨线,包括如下步骤:a)确定强化学习环境中每个智能体的状态空间、动作空间和奖励函数;b)设计每个智能体的演员网络和评判家网络结构;c)由每个智能体的当前状态通过演员网络确定其动作,进而与环境交互得到该动作的奖励值和智能体下一步的状态;d)由所有智能体的动作、当前和下一步的状态通过评判家网络分别确定状态和动作价值函数,进而设计损失函数;e)根据反向传播算法重复步骤c)和d)更新演员和评判家网络中的权值直至期望要求。此种方法简单可靠、不依赖系统模型,能够快速地实现复杂环境中的编队包围任务。

Patent Agency Ranking