-
公开(公告)号:CN119167095A
公开(公告)日:2024-12-20
申请号:CN202411652736.7
申请日:2024-11-18
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及人工智能和集群对抗技术领域,提供一种对抗集群的训练方法及系统、对抗集群的对抗方法及系统,该训练方法包括:将对抗数据实时存储到在线策略样本存储器中;每当在线策略样本存储器中的数据量超过预设的第一阈值,将数据转移到离线策略样本存储器中;从离线策略样本存储器中筛选出智能体的对抗指标最优的多个数据,得到过滤后的数据;基于在线策略样本存储器中的当前数据及过滤后的数据,确定策略梯度;基于策略梯度,更新对抗集群中的智能体的神经网络参数,以训练对抗集群。本公开可以解决集群的对抗能力弱、对抗策略固化和适应性差的问题,可以增强集群的对抗能力,提升集群持续学习演进,提高对抗策略的灵活性和适应性。
-
公开(公告)号:CN119988988A
公开(公告)日:2025-05-13
申请号:CN202510477428.3
申请日:2025-04-16
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/006 , G06N3/0455 , G06N3/084 , G06N3/092
Abstract: 公开了一种面向多任务的智能体训练方法和决策方法及装置,训练方法包括:将训练样本中初始任务状态输入混合编码器获取预估任务特征;将预估任务特征输入共享策略网络生成预估初步动作;将预估任务特征和预估初步动作输入动作校正策略网络生成预估校正动作;将预估初步动作和预估校正动作输入动作校正模块得到预估下一步动作;执行预估下一步动作获取预估下一任务状态;基于初始任务状态、预估下一任务状态和目标任务状态确定稀疏奖励和密集奖励;将预估下一任务状态作为初始任务状态并返回获取预估任务特征步骤,直至完成训练样本中任务;基于每个训练样本所有稀疏奖励、所有密集奖励,更新共享策略网络、动作校正策略网络和混合编码器的参数。
-
公开(公告)号:CN119167095B
公开(公告)日:2025-02-18
申请号:CN202411652736.7
申请日:2024-11-18
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及人工智能和集群对抗技术领域,提供一种对抗集群的训练方法及系统、对抗集群的对抗方法及系统,该训练方法包括:将对抗数据实时存储到在线策略样本存储器中;每当在线策略样本存储器中的数据量超过预设的第一阈值,将数据转移到离线策略样本存储器中;从离线策略样本存储器中筛选出智能体的对抗指标最优的多个数据,得到过滤后的数据;基于在线策略样本存储器中的当前数据及过滤后的数据,确定策略梯度;基于策略梯度,更新对抗集群中的智能体的神经网络参数,以训练对抗集群。本公开可以解决集群的对抗能力弱、对抗策略固化和适应性差的问题,可以增强集群的对抗能力,提升集群持续学习演进,提高对抗策略的灵活性和适应性。
-
公开(公告)号:CN120029347A
公开(公告)日:2025-05-23
申请号:CN202510502577.0
申请日:2025-04-21
Applicant: 中国科学院自动化研究所
IPC: G05D1/695 , G05D109/20
Abstract: 本公开涉及多无人设备轨迹规划技术领域,提供一种多无人设备的轨迹规划方法及装置、无人设备,该方法包括:获取目标环境的环境信息以及多个无人设备的任务信息;基于所述环境信息和所述任务信息,确定每个无人设备的初始轨迹;对各无人设备的初始轨迹进行全局优化,得到每个无人设备的优化轨迹;基于各无人设备的优化轨迹,确定所述多个无人设备的轨迹规划结果。本公开可以解决多无人设备的轨迹规划存在全局优化不佳、收敛速度慢的问题,可以在考虑每个无人设备的轨迹的基础上,整体提高全局的轨迹规划,能够更快地收敛到全局最优解,为无人设备在复杂环境中的应用提供了更加可靠的技术支持。
-
-
-