-
公开(公告)号:CN114429213A
公开(公告)日:2022-05-03
申请号:CN202111499250.0
申请日:2021-12-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种不完全信息博弈的决策方法、装置、电子设备与存储介质,所述方法包括:基于各对象组合的当前强度,以及所述各对象组合对应的出路数量,确定所述各对象组合的最终胜率;所述出路数量为有利于所述各对象组合的强度增强的待补充公共对象数量;基于所述各对象组合的最终胜率,构建博弈树;基于所述博弈树,求解纳什均衡策略。本发明提供的方法、装置、电子设备与存储介质,解决了信息抽象技术中对象组合胜率的评估速度慢的难题,实现了缩短均衡分析算法的决策收益计算时间,能够极大地节约CFR的迭代时间,同时可以降低均衡分析算法在不完全信息博弈决策问题中的应用效率,促进不完全信息博弈领域的发展。
-
公开(公告)号:CN113626720B
公开(公告)日:2022-02-25
申请号:CN202111185124.8
申请日:2021-10-12
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06N20/00
-
公开(公告)号:CN113626721B
公开(公告)日:2022-01-25
申请号:CN202111185156.8
申请日:2021-10-12
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06N20/00
Abstract: 本发明提供一种基于遗憾探索的推荐方法、装置、电子设备与存储介质,所述方法包括:基于目标用户的用户特征和各候选对象的对象特征,确定各候选对象的状态;将各候选对象的状态输入至评分模型,得到评分模型输出的各候选对象的评分;基于各候选对象的评分,确定向目标用户推荐的对象;评分模型是基于样本对象的样本状态进行强化学习得到的;在强化学习过程中,评分模型基于遗憾值集合,以及当前样本状态进行评分探索,遗憾值集合存储有历史状态及其对应的遗憾值,遗憾值基于历史状态下各候选评分的优势确定,历史状态是在当前样本状态之前的样本状态,从而提高了探索的效率,实现了对不同用户进行个性化的精确推荐,提高了用户体验。
-
公开(公告)号:CN113626720A
公开(公告)日:2021-11-09
申请号:CN202111185124.8
申请日:2021-10-12
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06N20/00
Abstract: 本发明提供一种基于动作剪枝的推荐方法、装置、电子设备与存储介质,包括:基于目标用户的用户特征和各待推荐内容的内容特征,确定各待推荐内容对应的状态;基于各待推荐内容对应的状态和评分预测模型,预测各待推荐内容的评分,并基于各待推荐内容的评分,向目标用户进行推荐;评分预测模型是强化学习得到的,在强化学习过程中,评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值,并基于遗憾值大于预设阈值的候选评分进行评分预测,遗憾值集合存储有历史状态及其对应的遗憾值,遗憾值基于历史状态下各候选评分的优势确定,历史状态是在当前样本状态之前的样本状态,加快强化学习的收敛速度,实现对用户进行个性化的精确推荐。
-
公开(公告)号:CN113626721A
公开(公告)日:2021-11-09
申请号:CN202111185156.8
申请日:2021-10-12
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06N20/00
Abstract: 本发明提供一种基于遗憾探索的推荐方法、装置、电子设备与存储介质,所述方法包括:基于目标用户的用户特征和各候选对象的对象特征,确定各候选对象的状态;将各候选对象的状态输入至评分模型,得到评分模型输出的各候选对象的评分;基于各候选对象的评分,确定向目标用户推荐的对象;评分模型是基于样本对象的样本状态进行强化学习得到的;在强化学习过程中,评分模型基于遗憾值集合,以及当前样本状态进行评分探索,遗憾值集合存储有历史状态及其对应的遗憾值,遗憾值基于历史状态下各候选评分的优势确定,历史状态是在当前样本状态之前的样本状态,从而提高了探索的效率,实现了对不同用户进行个性化的精确推荐,提高了用户体验。
-
-
-
-