-
公开(公告)号:CN114048833A
公开(公告)日:2022-02-15
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-
公开(公告)号:CN114048833B
公开(公告)日:2023-01-17
申请号:CN202111303688.7
申请日:2021-11-05
Applicant: 哈尔滨工业大学(深圳)
Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置,本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制,根据经验片段的学习价值设置优先级来过滤记忆库中的经验,对于优先经验的存储和采样,采用求和树的数据结构,以时间复杂度实现优先级经验采样,降低NFSP训练过程中与环境交互的代价,加快求解速度;同时使用马尔科夫决策过程对扩展式博弈进行建模,将多人博弈转化成单个智能体与环境的交互过程,可看作单个智能体和环境的二人博弈,将NFSP的应用范围拓展至多人博弈,增强算法的泛用性。
-
公开(公告)号:CN116212356A
公开(公告)日:2023-06-06
申请号:CN202310072057.1
申请日:2023-01-12
Applicant: 哈尔滨工业大学(深圳)
IPC: A63F1/00 , G06F18/214 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度回归抽象技术的虚拟遗憾策略求解方法及设备,所述方法包括:构建回归器网络,将回归器网络进行初始化并遍历博弈树收集历史数据;根据蓄水池采样方法对历史数据进行采样得到训练集,并基于训练集的数据对回归器网络进行训练;当回归器网络的训练次数达到最大训练轮次时停止训练,得到目标回归器网络,并获取深度回归虚拟遗憾最小化算法的到达概率,目标回归器网络根据到达概率计算得到平均策略。本发明使用神经网络作为回归器生成虚拟遗憾最小化算法迭代所需的遗憾值,减少信息抽象的影响,并使得算法无需存储大型表格,减少了算法的存储资源开销,同时利用神经网络的拟合能力也提升了算法的通用性与泛化性。
-
-