-
公开(公告)号:CN114925776A
公开(公告)日:2022-08-19
申请号:CN202210653373.3
申请日:2022-06-09
Applicant: 安徽工业大学
Abstract: 本发明公开了一种集成多价值网络的强化学习算法、装置及电子设备。所述算法包括采集若干样本组成样本集;基于样本集对所有价值网络及策略网络进行第一次更新;基于第一次更新后的所有价值网络获取与每一样本相应的若干价值网络估值间的标准差以作为不确定性指标;依据预设比例筛除不确定性高的样本后组成子样本集;基于子样本集继续对所有价值网络及策略网络按预设次数进行剩余次更新,并采集最后一次更新后的样本存储于缓冲区内;重复上述步骤以得到最优化价值网络及策略网络。所述系统及电子设备均基于算法搭建。本发明同时具有计算成本低、改善高估偏差及偏差传播,及平衡数据利用与探索能力的优势。
-
公开(公告)号:CN114925778A
公开(公告)日:2022-08-19
申请号:CN202210655295.0
申请日:2022-06-10
Applicant: 安徽工业大学
Abstract: 本发明公开了基于大型离散动作空间的强化学习优化方法、方法及装置。所述优化方法包括:将状态输入策略网络以得到原始动作,并基于KNN算法获取大型离散动作集内与所述原始动作距离相近的若干离散动作;将获取的各所述离散动作输入价值网络以筛选出最佳动作,并使模型执行所述最佳动作以获得样本;循环执行上述步骤以获得若干所述样本,并按照获取顺序依次间隔选取部分所述样本存储于缓冲池内;基于所述缓冲池训练所述模型并更新所述策略网络及所述价值网络;循环执行上述所有步骤直至得到最优的策略网络及价值网络。所述方法及所述优化装置均基于所述优化方法进行。本发明在进行模型训练时具有训练速度快,且对动作泛化能力强的优点。
-
公开(公告)号:CN114925778B
公开(公告)日:2024-08-09
申请号:CN202210655295.0
申请日:2022-06-10
Applicant: 安徽工业大学
IPC: G06F18/2413 , G06F18/214 , G06N3/0464 , G06N3/092
Abstract: 本发明公开了基于大型离散动作空间的强化学习优化方法、方法及装置。所述优化方法包括:将状态输入策略网络以得到原始动作,并基于KNN算法获取大型离散动作集内与所述原始动作距离相近的若干离散动作;将获取的各所述离散动作输入价值网络以筛选出最佳动作,并使模型执行所述最佳动作以获得样本;循环执行上述步骤以获得若干所述样本,并按照获取顺序依次间隔选取部分所述样本存储于缓冲池内;基于所述缓冲池训练所述模型并更新所述策略网络及所述价值网络;循环执行上述所有步骤直至得到最优的策略网络及价值网络。所述方法及所述优化装置均基于所述优化方法进行。本发明在进行模型训练时具有训练速度快,且对动作泛化能力强的优点。
-
-