一种面向种群训练的分布式深度强化学习训练模型

    公开(公告)号:CN115496206A

    公开(公告)日:2022-12-20

    申请号:CN202211315369.2

    申请日:2022-10-25

    Abstract: 本公开是关于一种面向种群训练的分布式深度强化学习训练模型。其中,该模型包括训练模块及评估模块,所述训练模块用于智能体面向种群训练的网络权重训练,生成参数指针并发送至所述评估模块;所述评估模块用于在工作模式为参数存储模式时,接收所述训练模块发送的参数指针并存储,在工作模式为参数评估模式时,依据存储参数指针获取参数并评估。本公开支持分布式数据生成、计算调度、模型训练以及性能评估,显著加速智能体的网络参数训练过程;依据需求支持可变数量的智能体网络参数可对其进行相对独立的训练;构建缓存池缓解网络传输压力,解决网络拥堵的问题;有效避免各个模块同时上传与申请数据造成的网络拥堵问题。

    构建博弈AI模型和数据处理的方法、装置、设备及介质

    公开(公告)号:CN114580642A

    公开(公告)日:2022-06-03

    申请号:CN202210265680.4

    申请日:2022-03-17

    Inventor: 李凯 兴军亮 徐航

    Abstract: 本公开涉及一种构建博弈AI模型和数据处理的方法、装置、设备及介质,可应用于不完美信息博弈场景,通过确定包含多个遗憾最小化算法的备选算法集合,并在每轮迭代计算过程中,根据上述多个遗憾最小化算法的性能评价指标值和上述多个遗憾最小化算法从迭代开始到当前轮被使用的次数来确定上述备选算法集合中的特定遗憾最小化算法为当前轮要使用的目标算法,在提供多种灵活的算法选择的同时还自适应地选择目标算法,提升迭代的收敛速度,从而提升博弈AI模型的构建效率。至少能够解决应用目前的反事实遗憾最小化算法来构建AI模型时收敛速度很慢、耗时较长的技术问题。

    构建博弈AI模型和数据处理的方法、装置、设备及介质

    公开(公告)号:CN114580642B

    公开(公告)日:2023-04-07

    申请号:CN202210265680.4

    申请日:2022-03-17

    Inventor: 李凯 兴军亮 徐航

    Abstract: 本公开涉及一种构建博弈AI模型和数据处理的方法、装置、设备及介质,可应用于不完美信息博弈场景,通过确定包含多个遗憾最小化算法的备选算法集合,并在每轮迭代计算过程中,根据上述多个遗憾最小化算法的性能评价指标值和上述多个遗憾最小化算法从迭代开始到当前轮被使用的次数来确定上述备选算法集合中的特定遗憾最小化算法为当前轮要使用的目标算法,在提供多种灵活的算法选择的同时还自适应地选择目标算法,提升迭代的收敛速度,从而提升博弈AI模型的构建效率。至少能够解决应用目前的反事实遗憾最小化算法来构建AI模型时收敛速度很慢、耗时较长的技术问题。

Patent Agency Ranking