一种神经网络控制律高效自主学习方法

    公开(公告)号:CN120046653A

    公开(公告)日:2025-05-27

    申请号:CN202411917060.X

    申请日:2024-12-24

    Abstract: 本发明公开了一种神经网络控制律高效自主学习方法。针对在运用深度强化学习算法实现复杂飞行器控制律自学习的过程中,超参数设定高度依赖于人工经验进而造成设计难度大,且不一定对于任务最优的问题,本发明引入图像识别领域网络架构搜索思想,提出基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架构设计问题转化为图拓扑生成问题的基础上,结合LSTM循环神经网络的图拓扑生成算法、基于权重共享的深度强化学习参数轻量化训练与评估机制,以及基于策略梯度的图拓扑生成器参数学习算法,实现了深度强化学习训练算法中神经网络架构超参数的自动优化,进而完成了控制律的自学习。

    飞行器减载制导方法、设备、存储介质

    公开(公告)号:CN117872731A

    公开(公告)日:2024-04-12

    申请号:CN202311623119.X

    申请日:2023-11-30

    Abstract: 本申请提供一种飞行器减载制导方法、设备、存储介质,该方法包括:在飞行器飞行状态的坐标系下,建立飞行器减载制导律的训练环境;获取训练环境赋予的当前时刻的状态量;根据当前时刻的状态量和强化学习神经网络模型,采样得到当前时刻的动作输出量;根据当前时刻的动作输出量,确定训练环境赋予的奖励值和下一时刻的状态量;基于当前时刻的状态量,当前时刻的动作输出量,奖励值和下一时刻的状态量,形成训练样本;根据训练样本,对强化学习神经网络模型进行训练,得到飞行器上升段的减载制导律。本申请提供的方法可以解决飞行器上升段在未知风场下的减载制导问题。

    一种基于DDPG强化学习火箭回收控制器实现与仿真的应用方法

    公开(公告)号:CN118550207A

    公开(公告)日:2024-08-27

    申请号:CN202311634804.2

    申请日:2023-12-01

    Abstract: 本申请实施例中提供了一种基于DDPG强化学习的火箭回收控制器实现与仿真的应用方法,涉及飞行器制导控制技术领域,该方法包括以下步骤:对火箭下落过程进行了简化动力学建模并进行reward设计,采用改进后输出均值和标准差的DDPG进行训练;对火箭下落轨迹采用强化学习的方式进行轨迹规划和制导;其中,该方法的主要内容包括:定义描述轨迹的状态量并根据终端约束设计相应的回报函数、采用DDPG进行连续行为的轨迹规划和制导、并引入Mindspore国产化框架进行仿真。本申请,通过网络结构的改进和奖励函数的设计取得了较好效果,并可以基于数学仿真实现火箭垂直返回软着陆。

Patent Agency Ranking