一种多智能体协同强化学习方法、终端及存储介质

    公开(公告)号:CN116226662B

    公开(公告)日:2024-02-09

    申请号:CN202310012741.0

    申请日:2023-01-05

    Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

    一种多智能体协同强化学习方法、终端及存储介质

    公开(公告)号:CN116226662A

    公开(公告)日:2023-06-06

    申请号:CN202310012741.0

    申请日:2023-01-05

    Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

Patent Agency Ranking