一种基于HPPO的抗干扰措施决策与参数优化方法

    公开(公告)号:CN119377668A

    公开(公告)日:2025-01-28

    申请号:CN202411410640.X

    申请日:2024-10-10

    Abstract: 本发明提供一种基于HPPO的抗干扰措施决策与参数优化方法,属于雷达抗干扰技术领域。包括:设定雷达与干扰机对抗场景下的雷达抗干扰过程,对雷达系统在对抗过程中的干扰环境状态、执行动作、即时奖励进行定义;对演员‑评论家网络参数初始化,基于所述演员‑评论家网络构建HPPO网络并进行超参数设置;对每个训练幕的每个时间步,基于HPPO的演员网络决策输出抗干扰措施和措施参数组合,作为当前时间步的执行动作,HPPO的评论家网络负责估计状态值函数,雷达执行动作后得到即时奖励,并转移至下一状态;在每个更新周期,根据执行轨迹,计算演员和评论家网络的损失函数,基于损失函数分别更新演员和评论家网络参数;达到预设训练幕数后,结束训练。

Patent Agency Ranking