基于深度强化学习的时序推荐方法及系统

    公开(公告)号:CN114819387A

    公开(公告)日:2022-07-29

    申请号:CN202210536528.5

    申请日:2022-05-17

    Applicant: 河南大学

    Abstract: 本发明提供一种基于深度强化学习的时序推荐方法及系统。该方法包括:根据用户在t时刻的项目集It以及用户信息,生成t时刻的用户状态st;将用户状态st作为训练好的Actor模型的输入信息,得到用户状态st下的推荐动作at;将推荐动作at推荐给用户,并获得对应的用户反馈信息rt;根据用户反馈信息rt得到t+1时刻的用户状态st+1和项目集It+1,并将t时刻对应的推荐动作集合(st,at,rt,st+1)存储到经验池M以对经验池M进行更新;将用户状态st和推荐动作at作为训练好的Critic模型的输入信息,得到用户状态st下的Q函数值,根据Q函数值和用户反馈信息rt计算得到损失函数值;根据Q函数值和损失函数值,以最新的经验池M作为训练数据更新Actor模型的网络参数和Critic模型的网络参数。

Patent Agency Ranking