-
公开(公告)号:CN119124175B
公开(公告)日:2025-04-15
申请号:CN202411603774.3
申请日:2024-11-12
Applicant: 同济大学
Abstract: 一种基于宽度强化学习的水下机器人实时路径规划方法,包括:建立水下机器人仿真环境;将水下机器人实时路径规划问题建模为马尔可夫决策过程;构建宽度评价网络和宽度目标网络,并初始化参数;设计先验策略指导水下机器人进行动作的选择;计算上一时刻环境状态下动作作用后的奖励,得到完整经验并存入经验池;基于经验池中的样本,定义损失函数,以共轭梯度法进行宽度网络参数的更新;每隔预定时间更新宽度目标网络,直至完成训练。本发明基于宽度强化学习方法,降低了计算复杂度,设计先验策略指导机器人进行学习,具有训练速度快、计算量小的特点,适用于水下机器人的实时路径规划任务。
-
公开(公告)号:CN119124175A
公开(公告)日:2024-12-13
申请号:CN202411603774.3
申请日:2024-11-12
Applicant: 同济大学
Abstract: 一种基于宽度强化学习的水下机器人实时路径规划方法,包括:建立水下机器人仿真环境;将水下机器人实时路径规划问题建模为马尔可夫决策过程;构建宽度评价网络和宽度目标网络,并初始化参数;设计先验策略指导水下机器人进行动作的选择;计算上一时刻环境状态下动作作用后的奖励,得到完整经验并存入经验池;基于经验池中的样本,定义损失函数,以共轭梯度法进行宽度网络参数的更新;每隔预定时间更新宽度目标网络,直至完成训练。本发明基于宽度强化学习方法,降低了计算复杂度,设计先验策略指导机器人进行学习,具有训练速度快、计算量小的特点,适用于水下机器人的实时路径规划任务。
-