-
-
公开(公告)号:CN111652369A
公开(公告)日:2020-09-11
申请号:CN202010405416.7
申请日:2020-05-13
Applicant: 中央民族大学
Abstract: 本申请公开了一种新的节点价值混合更新方法,流程包括:在UCT树搜索过程中,分为选择阶段、扩展阶段、模拟阶段和反馈阶段四个阶段;UCT树的选择阶段、扩展阶段、模拟阶段使用SARSA(λ)算法更新博弈路径上的节点价值;UCT树的反馈阶段使用Q-Learning算法更新搜索路径的上所有节点的价值;步骤4:得到UCT树搜索结果。本申请提出一种用于UCT树的SARSA(λ)与Q-Learning相结合的节点价值混合更新方法,充分利用SARSA(λ)与Q-Learning的优势,解决了相关技术中较长的训练时间以及较多的迭代次数,消耗算力资源的问题。
-