Patent search ap:("吉林大学") AND inv:"张棋" Page 1

1.

发明公开
强化学习模型的优化方法、装置、存储介质及电子设备无效

公开(公告)号：CN113435606A

公开(公告)日：2021-09-24

申请号：CN202110748240.X

申请日：2021-07-01

Applicant: 吉林大学

Inventor： 张棋 , 杨博 , 陈贺昌 , 孙智孝 , 朴海音 , 詹光 , 常毅

IPC: G06N20/00 , G06N5/04 , G06F17/15

Abstract: 本申请实施例公开了一种强化学习模型的优化方法、装置、存储介质及电子设备，涉及深度强化学习领域。其中，方法包括：基于演员评论家网络与环境交互产生的历史数据获取变分推理网络，以及通过所述变分推理网络训练所述演员评论家网络；基于经训练过的所述演员评论家网络生成初始演员双评论家网络；将所述初始演员双评论家网络中的优势函数替换为广义优势函数，得到所述初始演员双评论家网络对应的演员双评论家网络。采用本申请实施例，可以提高针对历史数据的利用率，提高深度强化学习模型的泛化性以及减少训练时。

Patent Agency Ranking