-
公开(公告)号:CN116841708A
公开(公告)日:2023-10-03
申请号:CN202310670566.4
申请日:2023-06-08
Applicant: 浙江大学
Abstract: 本发明公开了一种基于智能规划的多智能体强化学习方法,包括基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型;将多智能体强化学习算法模型的训练任务表示为规划任务描述;基于规划任务描述,依次执行翻译、编译、启发式搜索这三大步骤,进而得到最优动作序列;将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型经过学习得到底层精密动作,环境执行后产生经验元组并将其存至缓冲区中;启发式搜索过程中,根据当前智能体的所处状态实时计算并更新动作执行代价值。该方法大大提升了算法模型的决策准确性以及训练效率。
-
公开(公告)号:CN113689001A
公开(公告)日:2021-11-23
申请号:CN202111004896.7
申请日:2021-08-30
Applicant: 浙江大学 , 中国航空无线电电子研究所
Abstract: 本发明公开了一种基于反事实遗憾最小化的虚拟自我对弈方法和装置,应用在多方智能体参与的博弈环境中,多方智能体采用相同算法生成策略,每个策略对应待优化的算法参数,决定算法输出动作的概率值;所述方法包括:每个智能体采用反事实遗憾最小化算法根据博弈环境状态生成针对全局策略的最佳回应策略;对每个智能体的历史回应策略进行平均化得到每个智能体的平均策略;按照一定比例分别对最佳回应策略和平均策略进行采样,将采样得到的环境状态、动作的概率值以及对应的回报分别存储到平均策略经验池和最佳回应策略经验池;从平均策略经验池和最佳回应经验池中采样环境状态、动作的概率值以及对应的回报更新最佳回应策略和平均策略。
-
公开(公告)号:CN113688977A
公开(公告)日:2021-11-23
申请号:CN202111004903.3
申请日:2021-08-30
Applicant: 浙江大学 , 中国航空无线电电子研究所
Abstract: 本发明公开了一种面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质,包括:根据人类指导的示范数据,采用模仿学习优化CNN以得到CNN的策略函数;根据CNN的策略函数初始化PPO算法的策略网络的策略函数,为PPO算法添加目标值网络用以计算回报值,采用分布式训练方式以增加回报值的损失函数优化PPO算法;以PPO算法初始化NFSP算法中智能体的平均策略网络,并采用MCTS算法计算智能体的最佳回应策略;根据人类反馈数据训练NFSP算法的奖励值估计,依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习,以优化智能体的平均策略和最佳回应策略。以提升智能体在对抗任务的决策准确性。
-
-