Patent search ap:("哈尔滨工业大学(深圳)") AND inv:"于梓元" Page 1

1.

发明公开
基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置有权

公开(公告)号：CN114048833A

公开(公告)日：2022-02-15

申请号：CN202111303688.7

申请日：2021-11-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 漆舒汉 , 张加佳 , 于梓元 , 刘洋 , 唐琳琳 , 夏文 , 廖清 , 蒋琳 , 张丹丹

IPC: G06N3/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置，本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制，根据经验片段的学习价值设置优先级来过滤记忆库中的经验，对于优先经验的存储和采样，采用求和树的数据结构，以时间复杂度实现优先级经验采样，降低NFSP训练过程中与环境交互的代价，加快求解速度；同时使用马尔科夫决策过程对扩展式博弈进行建模，将多人博弈转化成单个智能体与环境的交互过程，可看作单个智能体和环境的二人博弈，将NFSP的应用范围拓展至多人博弈，增强算法的泛用性。

2.

发明授权
基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置有权

公开(公告)号：CN114048833B

公开(公告)日：2023-01-17

申请号：CN202111303688.7

申请日：2021-11-05

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 漆舒汉 , 张加佳 , 于梓元 , 刘洋 , 唐琳琳 , 夏文 , 廖清 , 蒋琳 , 张丹丹

IPC: G06N3/00 , G06N3/04 , G06N3/08 , G06N20/00

Abstract: 本发明公开了一种基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置，本发明在传统的神经网络虚拟自我对局NFSP算法的基础上引入了优先级经验采样机制和优先级加权的程度控制机制，根据经验片段的学习价值设置优先级来过滤记忆库中的经验，对于优先经验的存储和采样，采用求和树的数据结构，以时间复杂度实现优先级经验采样，降低NFSP训练过程中与环境交互的代价，加快求解速度；同时使用马尔科夫决策过程对扩展式博弈进行建模，将多人博弈转化成单个智能体与环境的交互过程，可看作单个智能体和环境的二人博弈，将NFSP的应用范围拓展至多人博弈，增强算法的泛用性。

3.

发明公开
基于深度回归抽象技术的虚拟遗憾策略求解方法及设备审中-实审

公开(公告)号：CN116212356A

公开(公告)日：2023-06-06

申请号：CN202310072057.1

申请日：2023-01-12

Applicant: 哈尔滨工业大学(深圳)

Inventor： 王轩 , 崔蕾 , 漆舒汉 , 张加佳 , 刘洋 , 夏文 , 唐琳琳 , 于梓元

IPC: A63F1/00 , G06F18/214 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于深度回归抽象技术的虚拟遗憾策略求解方法及设备，所述方法包括：构建回归器网络，将回归器网络进行初始化并遍历博弈树收集历史数据；根据蓄水池采样方法对历史数据进行采样得到训练集，并基于训练集的数据对回归器网络进行训练；当回归器网络的训练次数达到最大训练轮次时停止训练，得到目标回归器网络，并获取深度回归虚拟遗憾最小化算法的到达概率，目标回归器网络根据到达概率计算得到平均策略。本发明使用神经网络作为回归器生成虚拟遗憾最小化算法迭代所需的遗憾值，减少信息抽象的影响，并使得算法无需存储大型表格，减少了算法的存储资源开销，同时利用神经网络的拟合能力也提升了算法的通用性与泛化性。

Patent Agency Ranking