基于多智能体强化学习的动态空中多目标分配、打击方法

    公开(公告)号:CN116956705A

    公开(公告)日:2023-10-27

    申请号:CN202310692675.6

    申请日:2023-06-12

    Abstract: 本发明涉及一种基于多智能体强化学习的动态空中多目标分配、打击方法,基于多智能体强化学习的多目标分配技术针对多目标打击方案进行智能生成。基于Q值强化学习网络设计了一种新的近似动态结构实现规模适应性目标分配;同时,利用动作结构中的反馈机制提升网络分配的稳定性。与现有方法相比,算法在满足一定打击成功率基础上实现分配方法对目标数量动态变化适应性和分配结果的及时更新。本发明实现了对目标数量动态变化情况中稳定实时的打击分配策略生成和更新;智能体之间的动作信息共享和与目标覆盖率关联的奖励函数共同作用,保证了所有空中目标被能够被均匀选择并打击,提升了本发明对于空中多目标打击任务的执行能力和执行效果。

    一种改进的混沌差分鲸鱼算法的智能体路径优化方法

    公开(公告)号:CN116592886A

    公开(公告)日:2023-08-15

    申请号:CN202310491161.4

    申请日:2023-04-29

    Abstract: 本发明涉及一种改进的混沌差分鲸鱼算法的智能体路径优化方法,首先根据鲸鱼算法包围和攻击机制,对初始参数选择困难的问题,进行混沌初始化,实时更新坐标;接下来采用反向搜索提高搜索效率;然后利用差分进化中变异、交叉、选择,根据全局和局部搜索,确定每个智能体的最终位置。本发明可以应用于智能体的路径搜索的算法中,在原路径搜索算法易陷入局部最优的问题下,寻找全局最优解。本发明可以应用于智能体的路径搜索的算法中,在原路径搜索算法易陷入局部最优的问题下,寻找全局最优解。

    一种基于多智能体强化学习追逃博弈中的有限时间逃避策略

    公开(公告)号:CN118643888A

    公开(公告)日:2024-09-13

    申请号:CN202410812499.X

    申请日:2024-06-21

    Abstract: 本发明涉及一种基于多智能体强化学习追逃博弈中的有限时间逃避策略,属于强化学习和追逃博弈领域;首先在DQN算法的基础上,根据追逐者采用放牧策略,逃避者通过自身的机动性,对动作空间进行了重新考虑;接下来本发明设置了五种基本动作,利用DQN算法的迭代过程,根据追逐者和逃避者的相对状态,通过给定奖励来引导逃避者逃逸;然后在强化学习中引入了势函数,根据追逐者和逃避者的相对势动态调整逃避者的奖励,有效地提高了训练效率。本发明可以应用于多智能体强化学习追逃博弈算法中,实现了逃避者在有限时间内避免多个追逐者的捕获。

    一种基于随机蒸馏网络的无人机机动目标跟踪方法

    公开(公告)号:CN118760226A

    公开(公告)日:2024-10-11

    申请号:CN202410914905.3

    申请日:2024-07-09

    Abstract: 本发明涉及一种基于随机蒸馏网络的无人机机动目标跟踪方法,属于无人机机动目标跟踪领域。包括:根据三维无人机机动目标跟踪场景构建动力学模型;将动力学模型抽象建模为马尔科夫决策过程,设计状态空间、动作空间及奖励函数;基于随机蒸馏网络的强化学习算法对马尔科夫决策过程求解奖励回报最大化的策略,使得无人机以最优轨迹跟踪机动目标。本发明针对三维目标跟踪场景,相比于二维场景更加真实,符合实际情况,能够更好地用于无人机系统中;在随机蒸馏网络的基础上增加一个预测器网络,进一步增大无人机的探索效率,使无人机能够更快地找到最优或次优解,加快收敛效率。

Patent Agency Ranking