基于自适应贪婪的Q学习算法足球系统仿真方法

    公开(公告)号:CN109635913A

    公开(公告)日:2019-04-16

    申请号:CN201811538181.8

    申请日:2018-12-16

    CPC classification number: G06N3/008

    Abstract: 本发明公开了基于自适应贪婪的Q学习算法足球系统仿真方法,在传统Q学习的基础上,新增加了传播负报酬和自适应ε贪婪算法的思想,主要包括在如何的条件下传播负报酬、自适应ε贪婪算法如何加速收敛、改进的Q学习算法对于足球比赛系统的有效性。其采用的技术方案为:1)通过运用传播负报酬,从而提出基于传统Q学习的考虑较大负报酬的改进Q学习来适应动态的外界环境;2)通过引入自适应的ε贪婪算法,从而提出基于改进传统贪婪策略来更好地平衡强化学习中的探索和利用;3)将上述两种算法即基于负报酬的自适应ε贪婪算法应用到足球比赛仿真系统中,来证明改进后的传统算法能更有效的避免危险行为,更快地适应外界环境,从而提高收敛速度。

    一种基于结合反馈的改进贝叶斯逆强化学习方法

    公开(公告)号:CN109978012A

    公开(公告)日:2019-07-05

    申请号:CN201910161936.5

    申请日:2019-03-05

    Abstract: 本发明公开了一种基于结合反馈的改进贝叶斯逆强化学习方法,本发明提出了一种结合专家反馈和演示的交互式的学习方法,在LfF中,专家评估学习者的行为,并以不同的奖励给出反馈,以改进学习者策略。在LfD中,Agent试图通过观察专家演示来学习其策略。将本方法的研究算法分为3个学习阶段:从非最佳演示中学习;从反馈中学习;演示和反馈学习;为减少需迭代的状态‑动作的数量,本发明提出了使用图像化贝叶斯规则迭代改进了Agent策略来加强学习到的奖赏函数,提高寻找最优动作的速度。

Patent Agency Ranking