-
公开(公告)号:CN113095500B
公开(公告)日:2023-04-07
申请号:CN202110348762.0
申请日:2021-03-31
Applicant: 南开大学
Abstract: 本发明公开了一种基于多智能体强化学习的机器人追捕方法,该方法包括构建两追一逃环境、构建马尔科夫模型、获取两追一逃网络模型以及扩展多追多逃策略等步骤。该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态,并通过基于值函数的近似策略迭代算法,训练得到两追一逃环境下的追捕策略,进而通过贪心决策算法扩展至多追多逃的情况,得到多追多逃情况下的最优追捕策略,该方法得到的追捕策略追捕成功率更高,从而使追捕过程更加高效、可靠。
-
公开(公告)号:CN113095500A
公开(公告)日:2021-07-09
申请号:CN202110348762.0
申请日:2021-03-31
Applicant: 南开大学
Abstract: 本发明公开了一种基于多智能体强化学习的机器人追捕方法,该方法包括构建两追一逃环境、构建马尔科夫模型、获取两追一逃网络模型以及扩展多追多逃策略等步骤。该方法利用已知的追捕机器人的运动学模型向前模拟追捕机器人在下一时刻的状态,并通过基于值函数的近似策略迭代算法,训练得到两追一逃环境下的追捕策略,进而通过贪心决策算法扩展至多追多逃的情况,得到多追多逃情况下的最优追捕策略,该方法得到的追捕策略追捕成功率更高,从而使追捕过程更加高效、可靠。
-
公开(公告)号:CN113095463A
公开(公告)日:2021-07-09
申请号:CN202110351009.7
申请日:2021-03-31
Applicant: 南开大学
Abstract: 本发明公开了一种基于进化强化学习的机器人对抗方法,包括:构建基于深度强化学习的机器人对抗策略;所述对抗策略为深度确定性策略梯度算法DDPG;结合进化算法与所述对抗策略,形成进化深度确定性策略梯度算法EDDPG;利用算法DDPG和算法EDDPG训练后的策略网络模型作为控制器,控制机器人与由基于威胁指数的对抗策略控制的机器人进行对抗。该方法考虑使用进化强化学习方法,它是深度强化学习与进化思想的结合,其中,深度强化学习方法无需建模,可以实现对机器人端到端的控制,且具有一定的泛化能力,能够有效解决现有方法存在的问题,进化思想则利用种群提高强化学习的探索能力和稳定性。
-
-