-
公开(公告)号:CN118502418A
公开(公告)日:2024-08-16
申请号:CN202410532282.3
申请日:2024-04-29
Applicant: 北京理工大学
IPC: G05D1/43 , G05D1/246 , G05D1/65 , G05D1/633 , G05D1/644 , G05D1/693 , G05D1/247 , G05D1/648 , G05D109/10
Abstract: 本发明公开了基于强化学习的多服务机器人动态时空路径规划方法,涉及多服务机器人路径规划技术领域,是一种求解效率高、泛化性好、易于在真实系统部署的基于深度强化学习的多服务机器人路径规划方法。具体方案为:将多服务机器人路径规划问题建模为部分可观测的马尔可夫博弈过程,设计观测空间、动作空间与奖励函数;设计基于注意力机制的多服务机器人路径规划神经网络模型;通过集中式训练、分布式执行的多智能体深度强化学习算法训练所述神经网络模型;将测试问题输入给训练好的神经网络模型,所述训练好的神经网络模型输出位置‑时间序列轨迹,结合局部规划算法完成路径规划问题。