-
公开(公告)号:CN118192584A
公开(公告)日:2024-06-14
申请号:CN202410406939.1
申请日:2024-04-07
申请人: 海南大学
IPC分类号: G05D1/43 , G05D109/30
摘要: 本发明涉及一种基于MPC‑NDQN的无人机着艇方法、设备、介质,方法包括如下步骤:通过构建无人机动力学模型,得到基于输入控制量和状态变量的离散化的线性状态空间方程,通过MPC得到未来一段时间内的着艇轨迹;基于着艇轨迹,利用NDQN更新噪声网络的网络参数;基于更新后的噪声网络得到最优动作,实现无人机飞行姿态的控制,NDQN中,以无人机的位姿和降落点的坐标作为状态空间,以无人机的飞行姿态作为动作空间,以着艇轨迹跟踪率作为奖励函数,且采用计及新老信息置信度和远见程度的价值函数。NDQN网络中带有标准正态分布的噪声,能在训练时产生一定的随机性,因此无人机即使在不确定的环境下也能精准跟踪最优着艇轨迹。
-
公开(公告)号:CN118195085A
公开(公告)日:2024-06-14
申请号:CN202410406933.4
申请日:2024-04-07
申请人: 海南大学
IPC分类号: G06Q10/04 , G06Q10/063 , G06Q50/26
摘要: 本发明涉及一种基于后悔值策略梯度的水面无人艇集群对抗策略优化方法,首先,为满足无人艇集群对抗的要求,设计合适的对抗场景,并制定合理的奖励函数对无人艇的决策进行评价。然后,采用一种后悔值策略梯度算法,将优势值式样的后悔值与强化学习中的策略梯度相结合,以改进策略网络参数的更新方式,从而提高决策效率。最后,与部署传统演员‑评论家算法策略的无人艇进行对抗演练,并评估无人艇集群对抗的性能表现。本发明的策略优化方法具备泛化能力,能够适用于不同类型无人艇集群、应对不同对抗环境,并实现多样化的任务目标。
-