-
公开(公告)号:CN119737968A
公开(公告)日:2025-04-01
申请号:CN202411858103.1
申请日:2024-12-17
Applicant: 常州大学
IPC: G01C21/34
Abstract: 本发明涉及路径规划技术领域,尤其涉及基于神经元弹性学习和多Q值策略的路径规划方法,包括构建移动机器人在未知环境中的路径规划,以Actor‑Critic网络进行策略学习;初始化ActorNetwork和Critic Network网络参数;通过对ActorNetwork中每一层的神经元进行主次功能区分,删除次神经元并随机赋值,保留主神经元所学;Critic Network中使用多Q值并选择最小的两个Q值取平均作为策略评估目标。本发明提出基于神经元弹性学习和多Q值策略的移动机器人路径规划方法,以解决现有深度强化学习路径规划算法无法在缩小对缓解漂移的修复时间的同时减小Q值高估问题的局限。
-
公开(公告)号:CN118519432A
公开(公告)日:2024-08-20
申请号:CN202410545870.0
申请日:2024-05-06
Applicant: 常州大学
Abstract: 本发明涉及路径规划技术领域,尤其涉及基于分布强化学习和保守约束的移动机器人路径规划方法,包括采集机器人状态信息;通过分位数回归神经网络将提取到的状态信息和动作信息生成分位数;使用Huber函数计算TD误差的损失,并与保守约束项加权求和,通过反向传播更新Critic网络的参数,使Critic网络逼近值函数;结合保守强化学习框架,选用KL散度度量奖励分布的调整程度,降低策略过度优化的风险,提高学习到的策略性能;并利用Conservative框架下的CSL项指导Actor网络选择最优动作。本发明解决现有方法无法获取动作价值的完整概率分布信息;以及现有神经网络函数逼近带来的Q值高估问题。
-