-
公开(公告)号:CN113987849B
公开(公告)日:2022-07-12
申请号:CN202111617156.0
申请日:2021-12-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种空战对抗算法的评估方法及装置,所述方法包括:根据红方飞行器的运动状态、红方飞行器的探测状态和红方飞行器的武器状态,以及蓝方飞行器的运动状态、蓝方飞行器的探测状态和蓝方飞行器的武器状态,对红方飞行器和蓝方飞行器进行演练,确定红蓝双方的胜负关系;根据所述胜负关系,确定待评估空战对抗算法相对于基准对抗算法的胜率,根据胜率,确定待评估空战对抗算法的评估结果。本发明提供的空战对抗算法的评估方法及装置,通过对红方飞行器和蓝方飞行器进行演练,根据演练的胜率确定待评估空战对抗算法相对于基准对抗算法的评估结果,实现了对于空战对抗算法科学、准确的评估。
-
公开(公告)号:CN114118400A
公开(公告)日:2022-03-01
申请号:CN202111183478.9
申请日:2021-10-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于专注网络的集群对抗方法、装置、设备、介质和产品,其中,该方法包括:获取集群中智能体的自身观测状态和环境观测状态;基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动‑评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。增强了集群对威胁场景的特征提取能力,加速集群对周围威胁环境的迭代更新学习,能够有效实现复杂环境下大规模集群的对抗。
-
公开(公告)号:CN114118400B
公开(公告)日:2023-01-03
申请号:CN202111183478.9
申请日:2021-10-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于专注网络的集群对抗方法、装置、设备、介质和产品,其中,该方法包括:获取集群中智能体的自身观测状态和环境观测状态;基于自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,专注网络用于对自身观测状态和环境观测状态的特征进行融合确定估计威胁评估参数和环境状态特征;将估计威胁评估参数和环境状态特征输入行动‑评价网络,得到智能体的动作策略,使智能体根据动作策略完成动作。增强了集群对威胁场景的特征提取能力,加速集群对周围威胁环境的迭代更新学习,能够有效实现复杂环境下大规模集群的对抗。
-
公开(公告)号:CN114792133B
公开(公告)日:2022-09-27
申请号:CN202210715660.2
申请日:2022-06-23
Applicant: 中国科学院自动化研究所
IPC: G06F30/27
Abstract: 本发明提供一种基于多智能体协作系统的深度强化学习方法和装置,涉及人工智能技术领域,所述方法包括:在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,基于当前奖惩数据优化深度强化学习网络,重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;通过多次深度强化学习更新协作图的当前分配调整动作,而不更新智能体的实际动作,以简化深度强化学习的步骤,实现在深度强化学习奖励稀疏的情况下,快速地进行多次深度强化学习积累更多的奖励,从而提高深度强化学习网络的训练效率以及收敛速度慢。
-
公开(公告)号:CN113962032A
公开(公告)日:2022-01-21
申请号:CN202111566939.0
申请日:2021-12-21
Applicant: 中国科学院自动化研究所
IPC: G06F30/15 , G06F30/20 , G06F17/16 , G06F119/12
Abstract: 本发明提供一种空战机动决策方法及装置,所述方法包括:根据飞行器实际性能限制因素,构建飞行器空战模型;根据在飞行控制系统控制下的飞行器状态的动态响应的时间,分别为不同的飞行器状态设置不同的决策周期;根据在设置决策周期后的飞行器状态,分别确定不同的飞行器状态对应的目标空战机动指令;根据目标空战机动指令和飞行器空战模型,对飞行器进行空战机动决策;其中,飞行器状态包括:高度、航向角和速度。本发明提供的空战机动决策方法及装置,通过不同的飞行器状态在控制系统下的动态响应特性,分别为不同的飞行器状态的机动决策设置不同的决策周期,可有效减轻空战机动决策实时性和准确性之间的矛盾,实现快速高效的空战机动决策。
-
公开(公告)号:CN119167095B
公开(公告)日:2025-02-18
申请号:CN202411652736.7
申请日:2024-11-18
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及人工智能和集群对抗技术领域,提供一种对抗集群的训练方法及系统、对抗集群的对抗方法及系统,该训练方法包括:将对抗数据实时存储到在线策略样本存储器中;每当在线策略样本存储器中的数据量超过预设的第一阈值,将数据转移到离线策略样本存储器中;从离线策略样本存储器中筛选出智能体的对抗指标最优的多个数据,得到过滤后的数据;基于在线策略样本存储器中的当前数据及过滤后的数据,确定策略梯度;基于策略梯度,更新对抗集群中的智能体的神经网络参数,以训练对抗集群。本公开可以解决集群的对抗能力弱、对抗策略固化和适应性差的问题,可以增强集群的对抗能力,提升集群持续学习演进,提高对抗策略的灵活性和适应性。
-
公开(公告)号:CN113962032B
公开(公告)日:2022-04-08
申请号:CN202111566939.0
申请日:2021-12-21
Applicant: 中国科学院自动化研究所
IPC: G06F30/15 , G06F30/20 , G06F17/16 , G06F119/12
Abstract: 本发明提供一种空战机动决策方法及装置,所述方法包括:根据飞行器实际性能限制因素,构建飞行器空战模型;根据在飞行控制系统控制下的飞行器状态的动态响应的时间,分别为不同的飞行器状态设置不同的决策周期;根据在设置决策周期后的飞行器状态,分别确定不同的飞行器状态对应的目标空战机动指令;根据目标空战机动指令和飞行器空战模型,对飞行器进行空战机动决策;其中,飞行器状态包括:高度、航向角和速度。本发明提供的空战机动决策方法及装置,通过不同的飞行器状态在控制系统下的动态响应特性,分别为不同的飞行器状态的机动决策设置不同的决策周期,可有效减轻空战机动决策实时性和准确性之间的矛盾,实现快速高效的空战机动决策。
-
公开(公告)号:CN113987849A
公开(公告)日:2022-01-28
申请号:CN202111617156.0
申请日:2021-12-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种空战对抗算法的评估方法及装置,所述方法包括:根据红方飞行器的运动状态、红方飞行器的探测状态和红方飞行器的武器状态,以及蓝方飞行器的运动状态、蓝方飞行器的探测状态和蓝方飞行器的武器状态,对红方飞行器和蓝方飞行器进行演练,确定红蓝双方的胜负关系;根据所述胜负关系,确定待评估空战对抗算法相对于基准对抗算法的胜率,根据胜率,确定待评估空战对抗算法的评估结果。本发明提供的空战对抗算法的评估方法及装置,通过对红方飞行器和蓝方飞行器进行演练,根据演练的胜率确定待评估空战对抗算法相对于基准对抗算法的评估结果,实现了对于空战对抗算法科学、准确的评估。
-
公开(公告)号:CN119167095A
公开(公告)日:2024-12-20
申请号:CN202411652736.7
申请日:2024-11-18
Applicant: 中国科学院自动化研究所
IPC: G06F18/214 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及人工智能和集群对抗技术领域,提供一种对抗集群的训练方法及系统、对抗集群的对抗方法及系统,该训练方法包括:将对抗数据实时存储到在线策略样本存储器中;每当在线策略样本存储器中的数据量超过预设的第一阈值,将数据转移到离线策略样本存储器中;从离线策略样本存储器中筛选出智能体的对抗指标最优的多个数据,得到过滤后的数据;基于在线策略样本存储器中的当前数据及过滤后的数据,确定策略梯度;基于策略梯度,更新对抗集群中的智能体的神经网络参数,以训练对抗集群。本公开可以解决集群的对抗能力弱、对抗策略固化和适应性差的问题,可以增强集群的对抗能力,提升集群持续学习演进,提高对抗策略的灵活性和适应性。
-
公开(公告)号:CN114792133A
公开(公告)日:2022-07-26
申请号:CN202210715660.2
申请日:2022-06-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于多智能体协作系统的深度强化学习方法和装置,涉及人工智能技术领域,所述方法包括:在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,基于当前奖惩数据优化深度强化学习网络,重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;通过多次深度强化学习更新协作图的当前分配调整动作,而不更新智能体的实际动作,以简化深度强化学习的步骤,实现在深度强化学习奖励稀疏的情况下,快速地进行多次深度强化学习积累更多的奖励,从而提高深度强化学习网络的训练效率以及收敛速度慢。
-
-
-
-
-
-
-
-
-