基于生成对抗模仿学习的含落角约束制导方法

    公开(公告)号:CN117787096A

    公开(公告)日:2024-03-29

    申请号:CN202311823051.X

    申请日:2023-12-27

    Abstract: 本发明涉及一种基于生成对抗模仿学习的含落角约束制导方法,建立了一个对抗性学习框架,通过利用专家数据训练判别器来生成奖励模型,从而解决奖励函数设计问题;利用奖励值引导智能体的探索与学习过程,避免智能体探索不良的决策空间,进而提高学习效率;利用生成器与环境交互产生交互数据,从而驱动策略的提升和更新;采用交替训练生成器和判别器的方式,使得判别器和生成器处于动态博弈,生成多样性较高的样本,增加数据的覆盖范围,提高智能体在新场景下的适应能力。该方法不依赖于对剩余飞行时间的精确测量,因此具有更好的泛化性能。

    基于专家数据与强化学习结合的着陆制导方法

    公开(公告)号:CN117828980A

    公开(公告)日:2024-04-05

    申请号:CN202311709808.2

    申请日:2023-12-13

    Abstract: 本发明涉及一种基于专家数据与强化学习结合的着陆制导方法,通过使用专家数据作为引导策略,为强化学习提供了一个启动状态的示范,简化了探索问题,提升了探索效率与算法收敛速度。随着强化学习策略的改进,引导策略的效果减弱,最终收敛为一个纯粹的强化学习策略。本发明利用指导策略显著加快强化学习训练的早期阶段,可以解决含有复杂约束的强化学习着陆制导问题。

    基于强化学习的软着陆自适应比例制导方法

    公开(公告)号:CN117826585A

    公开(公告)日:2024-04-05

    申请号:CN202311709806.3

    申请日:2023-12-13

    Abstract: 本发明涉及一种基于强化学习的软着陆自适应比例制导方法,通过将强化学习和比例导引方法结合,应用于软着陆制导问题中。当模型不确定性和干扰超过一定的范围时,传统比例导引可能因为鲁棒性较差而无法满足制导系统的设计指标要求。本发明将软着陆小行星的控制分解为终端角度约束控制与速度控制,通过使用强化学习产生自适应比例系数和速度系数,产生过载指令并对速度进行规划,实现对目标的有效安全软着陆。本发明利用比例导引增强制导精度,同时利用强化学习提升了在未知环境中自主决策的能力,可以解决未知环境中着陆制导问题。不仅可以满足着陆速度要求,还可以满足终端落角约束条件,提升了算法稳定性。

    基于强化学习的含时间和角度约束的协同制导方法

    公开(公告)号:CN118210229A

    公开(公告)日:2024-06-18

    申请号:CN202410283279.2

    申请日:2024-03-13

    Abstract: 本发明涉及一种基于强化学习的含时间和角度约束的协同制导方法,该发明通过将强化学习和比例导引方法结合,应用于协同制导问题中。当前基于强化学习的飞行器协同制导方法仍然存在一些挑战和不足之处。飞行器协同制导本身是一个复杂的非线性问题,而纯粹的强化学习方法在应对这类问题时可能面临收敛缓慢、数据需求量大以及易陷入局部最优解的问题。飞行器协同制导过程中的时变性和对角度的精确要求更增加了问题的难度,本发明结合比例导引增强制导精度,同时利用强化学习提升了在未知环境中自主决策的能力,可以解决未知环境中着陆制导问题。不仅可以满足满足终端落角约束,还可以满足时间协同,提升了算法稳定性。

Patent Agency Ranking