-
公开(公告)号:CN113435606A
公开(公告)日:2021-09-24
申请号:CN202110748240.X
申请日:2021-07-01
Applicant: 吉林大学
Abstract: 本申请实施例公开了一种强化学习模型的优化方法、装置、存储介质及电子设备,涉及深度强化学习领域。其中,方法包括:基于演员评论家网络与环境交互产生的历史数据获取变分推理网络,以及通过所述变分推理网络训练所述演员评论家网络;基于经训练过的所述演员评论家网络生成初始演员双评论家网络;将所述初始演员双评论家网络中的优势函数替换为广义优势函数,得到所述初始演员双评论家网络对应的演员双评论家网络。采用本申请实施例,可以提高针对历史数据的利用率,提高深度强化学习模型的泛化性以及减少训练时。