基于深度回归抽象技术的虚拟遗憾策略求解方法及设备

    公开(公告)号:CN116212356A

    公开(公告)日:2023-06-06

    申请号:CN202310072057.1

    申请日:2023-01-12

    Abstract: 本发明公开了一种基于深度回归抽象技术的虚拟遗憾策略求解方法及设备,所述方法包括:构建回归器网络,将回归器网络进行初始化并遍历博弈树收集历史数据;根据蓄水池采样方法对历史数据进行采样得到训练集,并基于训练集的数据对回归器网络进行训练;当回归器网络的训练次数达到最大训练轮次时停止训练,得到目标回归器网络,并获取深度回归虚拟遗憾最小化算法的到达概率,目标回归器网络根据到达概率计算得到平均策略。本发明使用神经网络作为回归器生成虚拟遗憾最小化算法迭代所需的遗憾值,减少信息抽象的影响,并使得算法无需存储大型表格,减少了算法的存储资源开销,同时利用神经网络的拟合能力也提升了算法的通用性与泛化性。

    一种基于单估值网络的CFR策略求解方法及相关设备

    公开(公告)号:CN116028817A

    公开(公告)日:2023-04-28

    申请号:CN202310078101.X

    申请日:2023-01-13

    Abstract: 本发明公开一种基于单估值网络的CFR策略求解方法及相关设备,所述方法包括:初始化每个博弈者的初始优势值网络;利用外部采样方法遍历博弈树,并收集得到累积遗憾值后,计算出优势值;利用所述优势值训练多个初始优势值网络,并将得到的多个经过训练后的优势值网络保存在优势值网络缓冲区中;在所述优势值网络缓冲区中选择一个经过训练后的优势值网络进行优势值网络采样操作,生成综合策略。本发明通过利用优势值训练初始优势值网络,将经过训练后的优势值网络保存在优势值网络缓冲区中,并对保存的经过训练后的优势值网络进行优势值网络采样操作,直接生成综合策略,不仅减少了存储和计算资源,提高了综合策略的质量和优越性。

Patent Agency Ranking