兵棋强随机博弈的策略演化训练方法、装置、设备及介质

    公开(公告)号:CN117151224A

    公开(公告)日:2023-12-01

    申请号:CN202310934321.8

    申请日:2023-07-27

    Abstract: 本发明提供一种兵棋强随机博弈的策略演化训练方法、装置、设备及介质,方法包括:基于兵棋推演对抗平台,获取强随机博弈、多异构智能体异步协同的兵棋决策问题;基于兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;获取自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;基于概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;基于策略损失和所述价值损失,对框架进行参数迭代,得到兵棋推演决策模型。此过程在PPO算法的基础上额外引入了三个截断参数,来缓解状态价值估计不准的问题,大幅提高兵棋训练过程的稳定性和收敛速度。

    一种面向种群训练的分布式深度强化学习训练模型

    公开(公告)号:CN115496206A

    公开(公告)日:2022-12-20

    申请号:CN202211315369.2

    申请日:2022-10-25

    Abstract: 本公开是关于一种面向种群训练的分布式深度强化学习训练模型。其中,该模型包括训练模块及评估模块,所述训练模块用于智能体面向种群训练的网络权重训练,生成参数指针并发送至所述评估模块;所述评估模块用于在工作模式为参数存储模式时,接收所述训练模块发送的参数指针并存储,在工作模式为参数评估模式时,依据存储参数指针获取参数并评估。本公开支持分布式数据生成、计算调度、模型训练以及性能评估,显著加速智能体的网络参数训练过程;依据需求支持可变数量的智能体网络参数可对其进行相对独立的训练;构建缓存池缓解网络传输压力,解决网络拥堵的问题;有效避免各个模块同时上传与申请数据造成的网络拥堵问题。

Patent Agency Ranking