面向多任务的智能体训练方法和决策方法及装置

    公开(公告)号:CN119988988A

    公开(公告)日:2025-05-13

    申请号:CN202510477428.3

    申请日:2025-04-16

    Abstract: 公开了一种面向多任务的智能体训练方法和决策方法及装置,训练方法包括:将训练样本中初始任务状态输入混合编码器获取预估任务特征;将预估任务特征输入共享策略网络生成预估初步动作;将预估任务特征和预估初步动作输入动作校正策略网络生成预估校正动作;将预估初步动作和预估校正动作输入动作校正模块得到预估下一步动作;执行预估下一步动作获取预估下一任务状态;基于初始任务状态、预估下一任务状态和目标任务状态确定稀疏奖励和密集奖励;将预估下一任务状态作为初始任务状态并返回获取预估任务特征步骤,直至完成训练样本中任务;基于每个训练样本所有稀疏奖励、所有密集奖励,更新共享策略网络、动作校正策略网络和混合编码器的参数。

    对抗集群的训练方法及系统、对抗集群的对抗方法及系统

    公开(公告)号:CN119167095B

    公开(公告)日:2025-02-18

    申请号:CN202411652736.7

    申请日:2024-11-18

    Abstract: 本公开涉及人工智能和集群对抗技术领域,提供一种对抗集群的训练方法及系统、对抗集群的对抗方法及系统,该训练方法包括:将对抗数据实时存储到在线策略样本存储器中;每当在线策略样本存储器中的数据量超过预设的第一阈值,将数据转移到离线策略样本存储器中;从离线策略样本存储器中筛选出智能体的对抗指标最优的多个数据,得到过滤后的数据;基于在线策略样本存储器中的当前数据及过滤后的数据,确定策略梯度;基于策略梯度,更新对抗集群中的智能体的神经网络参数,以训练对抗集群。本公开可以解决集群的对抗能力弱、对抗策略固化和适应性差的问题,可以增强集群的对抗能力,提升集群持续学习演进,提高对抗策略的灵活性和适应性。

    无人机三维路径规划方法、装置、电子设备和存储介质

    公开(公告)号:CN115016546B

    公开(公告)日:2022-10-28

    申请号:CN202210953534.0

    申请日:2022-08-10

    Abstract: 本发明提供一种无人机三维路径规划方法、装置、电子设备和存储介质,涉及无人机技术领域,所述方法包括:获取无人机当前路径点的局部感知信息;将无人机当前路径点的局部感知信息输入至视场模型,确定无人机当前视场的可飞区域和禁飞区域;在无人机下个路径点处于禁飞区域的情况下,确定无人机当前视场内处于可飞区域内的至少两个采样路径点,并将至少两个采样路径点中代价最小的采样路径点确定为安全路径点;基于安全路径点更新全局初始路径。本发明基于局部感知信息进行无人机的三维路径规划,生成无人机在复杂障碍环境下的自主安全路径。

    无人集群对抗方法、装置、电子设备及存储介质

    公开(公告)号:CN114815900A

    公开(公告)日:2022-07-29

    申请号:CN202210715655.1

    申请日:2022-06-23

    Abstract: 本发明提供一种无人集群对抗方法、装置、电子设备及存储介质,涉及无人设备自动化技术领域,该方法包括:根据第一无人集群,确定多个第一子集群,第一无人集群包括多个第一无人设备;根据第二无人集群,确定多个第二子集群,第二无人集群包括多个第二无人设备;获取第一目标集群与第一无人集群中每个第一子集群之间的关联参数,并根据关联参数,在多个第一子集群中确定第一目标集群对应的第二目标集群,第一目标集群为多个第二子集群中的任一子集群;控制第一目标集群对抗第二目标集群。该方法用以实现在复杂环境下,电子设备能够控制第二无人集群对第一无人集群进行高效的动态对抗,以提高该第二无人集群有效对抗该第一无人集群的成功率。

    空战机动决策方法及装置

    公开(公告)号:CN113962032B

    公开(公告)日:2022-04-08

    申请号:CN202111566939.0

    申请日:2021-12-21

    Abstract: 本发明提供一种空战机动决策方法及装置,所述方法包括:根据飞行器实际性能限制因素,构建飞行器空战模型;根据在飞行控制系统控制下的飞行器状态的动态响应的时间,分别为不同的飞行器状态设置不同的决策周期;根据在设置决策周期后的飞行器状态,分别确定不同的飞行器状态对应的目标空战机动指令;根据目标空战机动指令和飞行器空战模型,对飞行器进行空战机动决策;其中,飞行器状态包括:高度、航向角和速度。本发明提供的空战机动决策方法及装置,通过不同的飞行器状态在控制系统下的动态响应特性,分别为不同的飞行器状态的机动决策设置不同的决策周期,可有效减轻空战机动决策实时性和准确性之间的矛盾,实现快速高效的空战机动决策。

    传球优势区域确定方法及装置

    公开(公告)号:CN113902770B

    公开(公告)日:2022-04-08

    申请号:CN202111504143.2

    申请日:2021-12-10

    Abstract: 本发明提供一种传球优势区域确定方法及装置,该传球优势区域确定方法包括:获取目标对象的速度信息,以及目标对象的位置信息;基于速度信息和位置信息,确定目标对象的影响区域信息;基于速度信息和位置信息,确定目标对象的传球成功概率;基于影响区域信息以及传球成功概率,确定目标对象的传球优势区域信息。本发明提供的传球优势区域确定方法及装置,通过根据目标对象的速度信息和位置信息,采用知识策略确定影响区域信息,采用数据策略确定传球成功概率,结合影响区域信息和传球成功概率,能够得到目标对象的传球优势区域信息,能够直观准确地展现目标对象在球场中的优势区域,能够帮助球队进行态势分析,辅助提升竞赛技能。

    一种针对球场运动球员的动态策略优化方法及装置

    公开(公告)号:CN113988317A

    公开(公告)日:2022-01-28

    申请号:CN202111585625.5

    申请日:2021-12-23

    Abstract: 本发明提供一种针对球场运动球员的动态策略优化方法及装置。其中,该方法包括:确定待分析的球场状态数据;将所述球场状态数据输入到预设的球场策略优化网络模型,获得所述球场策略优化网络模型输出的运动球员的动作执行策略;其中,所述球场策略优化网络模型是基于样本球场状态数据、所述样本球场状态数据对应的状态评价信息以及球场知识表征数据训练得到的。本发明提供的针对球场运动球员的动态策略优化方法,通过球场知识表征数据和球场状态数据结合的方式来进行球场策略优化,能够有效加快策略优化过程和收敛过程,基于球场信息做出高质量的球场战术决策,从而将学习到的优化策略提供给球员参考,或应用到球场游戏的设计中,提高决策效率。

    空战对抗算法的评估方法及装置

    公开(公告)号:CN113987849A

    公开(公告)日:2022-01-28

    申请号:CN202111617156.0

    申请日:2021-12-28

    Abstract: 本发明提供一种空战对抗算法的评估方法及装置,所述方法包括:根据红方飞行器的运动状态、红方飞行器的探测状态和红方飞行器的武器状态,以及蓝方飞行器的运动状态、蓝方飞行器的探测状态和蓝方飞行器的武器状态,对红方飞行器和蓝方飞行器进行演练,确定红蓝双方的胜负关系;根据所述胜负关系,确定待评估空战对抗算法相对于基准对抗算法的胜率,根据胜率,确定待评估空战对抗算法的评估结果。本发明提供的空战对抗算法的评估方法及装置,通过对红方飞行器和蓝方飞行器进行演练,根据演练的胜率确定待评估空战对抗算法相对于基准对抗算法的评估结果,实现了对于空战对抗算法科学、准确的评估。

    基于连通保持约束的群体围捕方法及装置

    公开(公告)号:CN113268893B

    公开(公告)日:2021-10-01

    申请号:CN202110811042.3

    申请日:2021-07-19

    Abstract: 本发明提供一种基于连通保持约束的群体围捕方法及装置,方法包括:基于虚拟力场模型计算搜索指令,并与其他智能体形成保持通信的漫游状态;执行搜索指令以对区域进行目标搜索,若发现目标,则根据目标计算个体收益,并在个体收益小于或等于预设阈值时,独立围捕使个体收益最大的目标;否则,通过群体分布式通信机制将目标信息传送至其他临近智能体,接收其他临近智能体返回的任务分配方案,根据任务分配方案,基于选择性交互方法和虚拟力场模型计算围捕指令,并执行围捕指令以对目标进行围捕。本发明在通信保持约束条件下,同时考虑群体间各智能体与探测目标的作用,建立群体分布式协商机制,以实现群体无冲突的任务分配,进而快速围捕目标。

    分布式多智能体时空特征提取方法、行为决策方法

    公开(公告)号:CN111738372B

    公开(公告)日:2020-11-17

    申请号:CN202010873794.8

    申请日:2020-08-26

    Abstract: 本发明提出了一种分布式多智能体时空特征提取方法、行为决策方法。本发明的行为决策方法包括:获取当前时刻及前若干时刻智能体所能感知的状态信息,构建时空状态向量;将时空状态向量输入图网络生成层,输出智能体的原始特征向量;将原始特征向量输入空间特征提取层,输出空间关系特征向量;将空间关系特征向量输入时空特征提取层,输出时空关系特征向量;基于所得到的时空关系特征向量,计算智能体在当前时刻下的行为决策;更新时间步,计算下一时刻智能体的时空特征和行为决策。本发明实现了多智能体系统在复杂环境、时变拓扑、有限资源等约束下的分布式时空特征关系的提取,提升了多智能体系统在大规模复杂任务中的自适应能力和性能鲁棒性。

Patent Agency Ranking