一种基于强化学习的导弹制导方法和装置

    公开(公告)号:CN113239472B

    公开(公告)日:2021-09-21

    申请号:CN202110775732.8

    申请日:2021-07-09

    摘要: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

    一种基于强化学习的导弹制导方法和装置

    公开(公告)号:CN113239472A

    公开(公告)日:2021-08-10

    申请号:CN202110775732.8

    申请日:2021-07-09

    摘要: 本发明提供一种基于强化学习的导弹制导方法和装置,其中方法包括:基于雷达信号,获取当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息;基于当前导弹和目标的位置、姿态信息,以及导弹当前剩余能量信息,确定当前时刻的观测向量,并基于当前时刻以及上一时刻的观测向量,确定当前状态;将所述当前状态输入至动作网络,得到所述动作网络输出的动作,并基于所述动作,确定所述导弹的控制量;其中,所述动作网络是基于样本观测向量、每一时刻导弹采取的样本动作及其对应的奖励进行强化学习得到的。本发明提高了带角度约束的导弹围捕准确性。

    基于反事实回报的多智能体深度强化学习方法、系统

    公开(公告)号:CN111105034B

    公开(公告)日:2023-11-17

    申请号:CN201911343902.4

    申请日:2019-12-24

    摘要: 本发明属于学习算法领域,具体涉及一种基于反事实回报的多智能体深度强化学习方法、系统,旨在为了解决解决多智能体信誉分配问题。本发明方法包括:基于多智能体的运行环境,定义全局状态;基于局部观测量,通过预设的Q网络模型,获取各智能体对应的执行动作;获取各智能体对应的经验数据对,并增入经验池;从经验回放池中随机获取训练样本,训练并更新Q网络模型的权重;每隔设定的步长,将基于Q网络模型的权重更新目标Q网络模型;重复上述Q网络模型权重优化步骤,直至达到训练结束条件,获取最后一次权重更新的Q网络模型。本发明实现了完全合作多智能体间的信誉分配,进而实现了多智能体的协同决策,而且收敛快,效率高。

    多机器人协作对抗方法、装置、电子设备和存储介质

    公开(公告)号:CN113894780B

    公开(公告)日:2023-05-05

    申请号:CN202111136603.0

    申请日:2021-09-27

    IPC分类号: B25J9/16

    摘要: 本发明提供一种多机器人协作对抗方法、装置、电子设备和存储介质,其中方法包括:获取对抗环境的当前全局状态信息,以及每一己方机器人的当前局部观测信息;将所述对抗环境的当前全局状态信息和每一己方机器人的当前局部观测信息输入至协作对抗模型,得到所述协作对抗模型输出的每一己方机器人的当前决策行为;基于每一己方机器人的当前决策行为,对每一己方机器人进行控制。本发明提供的方法、装置、电子设备和存储介质,利用了对方机器人的训练数据,扩大了训练样本,提高了训练数据的利用率,提高了协作对抗模型的鲁棒性和准确性。

    煤气化炉的控制方法
    5.
    发明公开

    公开(公告)号:CN102799748A

    公开(公告)日:2012-11-28

    申请号:CN201210291386.7

    申请日:2012-08-15

    IPC分类号: G06F17/50 C10J3/48

    CPC分类号: Y02E20/18

    摘要: 本发明公开了一种煤气化炉的控制方法,该方法包括依次执行的如下步骤:S1、建立与煤气化炉相应的煤气化炉仿真模型,该仿真模型包含若干模型参数;S2、采集煤气化炉在某段时间内的输入数据和输出数据,所述输入数据和输出数据是指煤气化炉的输入、输出物质的成分与含量以及各项工作参数;S3、根据所采集的输入数据和输出数据,计算仿真模型的模型参数的值;S4、采集煤所化炉的实时输入数据和实时输出数据,通过仿真模型计算模拟输出数据与实时输出数据之间的差值,当该差值不在误差范围时,返回步骤S2,否则继续下一步骤;S5、利用仿真模型计算煤气化炉内在当前时刻起的一段时间内的工作状态参数,据此监控和调节煤气化炉的工作状态。本发明能够高效、实时、精确地调整和监控煤气化炉。

    两团队零和博弈的多智能体强化学习方法

    公开(公告)号:CN118863006A

    公开(公告)日:2024-10-29

    申请号:CN202411093631.2

    申请日:2024-08-09

    IPC分类号: G06N3/092 G06N3/045 G06N5/04

    摘要: 本发明提供了一种两团队零和博弈的多智能体强化学习方法,实现两个团队的多个智能体能在零和博弈任务场景的合作对抗能力。所述方法包括:获取目标智能体当前时刻的数据;所述目标智能体当前时刻的数据包括目标智能体当前时刻的观测、其它智能体以及环境信息;基于所述目标智能体对应的当前时刻的数据,通过独立策略网络确定目标智能体个体的策略,选择决策动作。其中独立策略网络是基于联合Q网络、独立Q网络、独立熵评估网络、以及历史数据,由策略评估、熵评估和策略提升三部分迭代训练得到。本发明解决了现有技术中由于博弈复杂、维度爆炸和信誉分配等造成的数据利用率低、计算复杂度高和容易陷入局部最优的技术问题。

    一种面向空战一对一博弈对抗的飞行器控制方法及装置

    公开(公告)号:CN116699978A

    公开(公告)日:2023-09-05

    申请号:CN202310127494.9

    申请日:2023-02-06

    IPC分类号: G05B13/04

    摘要: 本发明提供一种面向空战一对一博弈对抗的飞行器控制方法及装置,该方法包括:获取第一飞行器所在环境对应的外层状态信息,外层状态信息包括第一飞行器对应的相关状态信息及第二飞行器相对于第一飞行器的位置信息;将外层状态信息输入至外层策略网络中,得到外层策略网络输出的外层指令;将第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到内层飞行控制器网络输出的内层动作,内层状态信息包括相关状态信息及外层指令中的目标控制信号;根据外层指令及多个内层动作,控制第一飞行器对抗第二飞行器。该方法使得第一飞行器具有较高的自主智能决策能力,能够对第二飞行器进行有效且准确地对抗。

    储能电池充/放电异常行为检测方法及检测系统

    公开(公告)号:CN106154180A

    公开(公告)日:2016-11-23

    申请号:CN201610687158.X

    申请日:2016-08-18

    IPC分类号: G01R31/36

    CPC分类号: G01R31/3651 G01R31/3679

    摘要: 本发明公开了一种储能电池充/放电异常行为检测方法和检测系统。其中,该方法包括提取所述储能电池在充/放电状态下的电流、电压数据;将提取的电流数据与充/放电电流阈值比较,并根据比较结果确定所述储能电池的所述充/放电状态;利用K最近邻方法,确定所述储能电池在所述充/放电状态下的电流‑电压空间对应关系中K个最近邻距离和;将所述充/放电状态下的K个最近邻距离和与充/放电状态下的距离阈值进行比较,并根据比较结果来检测所述储能电池的充/放电异常行为。通过本发明实施例,可以为及时发现系统老化、故障等提供支持。

    模糊自适应动态规划方法

    公开(公告)号:CN102645894B

    公开(公告)日:2014-05-28

    申请号:CN201210118982.5

    申请日:2012-04-20

    发明人: 赵冬斌 朱圆恒

    IPC分类号: G05B13/04

    摘要: 本发明公开了一种模糊自适应动态规划方法。所述方法包括以下步骤:步骤1,对自适应动态规划方法中的动作模块和评价模块的参数进行初始化;步骤2,采集被控制对象的状态变量;步骤3,对评价模块进行学习直至其满足学习指标要求;步骤4,对当前模糊控制器也进行学习,使评价模块和当前模糊控制器同时满足学习指标要求;步骤5,重复步骤2~4,利用下一个时刻的状态变量重复进行学习,直到用完所有数据;步骤6:将获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。本发明利用模糊控制的结构简单、不需要精确模型的特性和自适应动态规则的学习特点,从而能够对欠驱动系统进行高效地智能控制。

    基于深度强化学习的多任务多机器人的运动控制方法

    公开(公告)号:CN118752492A

    公开(公告)日:2024-10-11

    申请号:CN202411217554.7

    申请日:2024-09-02

    摘要: 本发明提供一种基于深度强化学习的多任务多机器人的运动控制方法,属于机器人运动控制技术领域,包括:确定上下文信息,其中,上下文信息用于指示多个机器人的待执行任务;发送上下文信息至多个机器人中的每个机器人,以驱动多个机器人中的每个机器人执行对应的决策动作。本发明提供的基于深度强化学习的多任务多机器人的运动控制方法,解决了相关技术中的基于深度强化学习的多任务多机器人的运动控制方法,在面对不同的任务时的泛化能力不足,导致处理多任务的效率较低的问题,提高了多任务处理过程的效率。