一种基于价值分解差异的多主体对比探索方法

    公开(公告)号:CN119990245A

    公开(公告)日:2025-05-13

    申请号:CN202510144491.5

    申请日:2025-02-10

    Abstract: 本发明公开了一种基于价值分解差异的多智能体对比探索方法,该方法利用价值分解的差异和对比原则,根据不同的价值分解估计之间的差异确定更新权重,设置更新权重并将这种差异作为更新过程中的内在目标。MACE架构包含两个值函数估计器,每个值函数估计器都负责估计两种VD方法对应的联合状态动作值函数Qjt和Qtot,利用Qjt和Qtot之间的差异来创建一个隐式奖励函数和加权机制来指导探索,用于更新两个内部函数估计器。这种方法确保了Q值较高的动作优先进行采样,而Q值较小的动作仍然有机会进行采样,增强了探索行为,不仅在学习速度和最终性能上明显优于基线,而且有效保持了完整的表示能力。

    基于多智能体深度强化学习的无人机集群动态覆盖方法

    公开(公告)号:CN114879742A

    公开(公告)日:2022-08-09

    申请号:CN202210688998.3

    申请日:2022-06-17

    Abstract: 本发明公开了一种基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。

    一种基于安全强化学习的无人机集群覆盖控制方法

    公开(公告)号:CN118534919A

    公开(公告)日:2024-08-23

    申请号:CN202410627707.9

    申请日:2024-05-20

    Abstract: 本发明公开了一种基于安全强化学习的无人机集群覆盖控制方法,先使用覆盖能量和覆盖功率概念对任务进行建模;再根据避碰避障和通信连通保持等安全要求设计相应的约束力,以此设计安全防护机制;当发现无人机做出不安全的动作后对其进行矫正,用于在动态覆盖过程中保证无人机飞行安全和通信连通;最后,配合多智能体深度强化学习算法对模型进行训练,在训练完毕后,实际执行的过程中,关闭动作矫正器,从而实现带安全保障的动态覆盖。

    基于多智能体深度强化学习的无人机集群动态覆盖方法

    公开(公告)号:CN114879742B

    公开(公告)日:2023-07-04

    申请号:CN202210688998.3

    申请日:2022-06-17

    Abstract: 本发明公开了一种基于多智能体深度强化学习的无人机集群动态覆盖方法,首先,使用覆盖能量和覆盖功率概念对任务进行建模;其次,根据连通保持的要求设置相应的连通约束力,基于此设计集中式动作矫正器,该矫正器只在训练时起作用,用于保证连通和生成正负样本;最后,配合多智能体强化学习算法对模型进行训练,在执行时去除集中式动作矫正器,从而实现连通性保持的动态覆盖。

Patent Agency Ranking