-
公开(公告)号:CN114417124B
公开(公告)日:2024-11-01
申请号:CN202111450470.4
申请日:2021-11-30
Applicant: 哈尔滨工程大学
IPC: G06F16/9535 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/092 , G06F18/20 , G06F18/25
Abstract: 本发明公开了一种多任务强化学习推荐方法,步骤1:采集用户在项目集上的评分信息,根据项目的配置文件构造项目的向量表示;步骤2:采集有用户评分的项目以及与其相关的所有知识图谱信息,构造对应的三元组;步骤3:构造马尔科夫决策过程,并建立Q网络;步骤4:建立基于DDQN的推荐模型;步骤5:建立知识表示学习模型;步骤6:将知识表示学习作为DDQN推荐模型的辅助任务进行训练,交替更新DDQN推荐模型和知识表示学习模型。本发明使得推荐模型能够更深入挖掘项目与动作之间潜在的语义关系,从而提高了推荐的长期收益以及推荐精确度;同时由于使用多任务模型,提高了强化学习训练中的泛化性,也提升了训练的速度。
-
公开(公告)号:CN114417124A
公开(公告)日:2022-04-29
申请号:CN202111450470.4
申请日:2021-11-30
Applicant: 哈尔滨工程大学
IPC: G06F16/9535 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种多任务强化学习推荐方法,步骤1:采集用户在项目集上的评分信息,根据项目的配置文件构造项目的向量表示;步骤2:采集有用户评分的项目以及与其相关的所有知识图谱信息,构造对应的三元组;步骤3:构造马尔科夫决策过程,并建立Q网络;步骤4:建立基于DDQN的推荐模型;步骤5:建立知识表示学习模型;步骤6:将知识表示学习作为DDQN推荐模型的辅助任务进行训练,交替更新DDQN推荐模型和知识表示学习模型。本发明使得推荐模型能够更深入挖掘项目与动作之间潜在的语义关系,从而提高了推荐的长期收益以及推荐精确度;同时由于使用多任务模型,提高了强化学习训练中的泛化性,也提升了训练的速度。
-