-
公开(公告)号:CN114819387A
公开(公告)日:2022-07-29
申请号:CN202210536528.5
申请日:2022-05-17
Applicant: 河南大学
Abstract: 本发明提供一种基于深度强化学习的时序推荐方法及系统。该方法包括:根据用户在t时刻的项目集It以及用户信息,生成t时刻的用户状态st;将用户状态st作为训练好的Actor模型的输入信息,得到用户状态st下的推荐动作at;将推荐动作at推荐给用户,并获得对应的用户反馈信息rt;根据用户反馈信息rt得到t+1时刻的用户状态st+1和项目集It+1,并将t时刻对应的推荐动作集合(st,at,rt,st+1)存储到经验池M以对经验池M进行更新;将用户状态st和推荐动作at作为训练好的Critic模型的输入信息,得到用户状态st下的Q函数值,根据Q函数值和用户反馈信息rt计算得到损失函数值;根据Q函数值和损失函数值,以最新的经验池M作为训练数据更新Actor模型的网络参数和Critic模型的网络参数。