-
公开(公告)号:CN110750096B
公开(公告)日:2022-08-02
申请号:CN201910953377.1
申请日:2019-10-09
Applicant: 哈尔滨工程大学
Abstract: 本发明属于移动机器人导航技术领域,具体涉及一种静态环境下基于深度强化学习的移动机器人避碰规划方法。本发明使用激光测距仪采集原始数据,将处理后的数据作为A3C算法的状态S,通过构建A3C‑LSTM神经网络,将状态S作为网络输入,通过A3C算法,神经网络输出相应参数,利用参数通过正态分布选择移动机器人每一步执行的动作。本发明无需对环境进行建模,通过深度强化学习算法最终实现移动机器人成功在复杂静态障碍物环境下避障。本发明设计具有转艏约束的连续动作空间模型,且采用多线程异步学习,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障探索空间的高利用性与探索策略的多样性,提升算法收敛性、稳定性以及避障成功率。
-
公开(公告)号:CN110750096A
公开(公告)日:2020-02-04
申请号:CN201910953377.1
申请日:2019-10-09
Applicant: 哈尔滨工程大学
Abstract: 本发明属于移动机器人导航技术领域,具体涉及一种静态环境下基于深度强化学习的移动机器人避碰规划方法。本发明使用激光测距仪采集原始数据,将处理后的数据作为A3C算法的状态S,通过构建A3C-LSTM神经网络,将状态S作为网络输入,通过A3C算法,神经网络输出相应参数,利用参数通过正态分布选择移动机器人每一步执行的动作。本发明无需对环境进行建模,通过深度强化学习算法最终实现移动机器人成功在复杂静态障碍物环境下避障。本发明设计具有转艏约束的连续动作空间模型,且采用多线程异步学习,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障探索空间的高利用性与探索策略的多样性,提升算法收敛性、稳定性以及避障成功率。
-
公开(公告)号:CN110632931B
公开(公告)日:2022-06-21
申请号:CN201910953396.4
申请日:2019-10-09
Applicant: 哈尔滨工程大学
Abstract: 本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法,属于移动机器人导航技术领域。本发明通过激光测距仪采集原始数据,将原始数据处理后作为神经网络的输入,建立LSTM神经网络,通过A3C算法,神经网络输出相应参数,经过处理获得机器人每一步的动作。本发明无需对环境进行建模,更加适用于未知障碍物环境,采用actor‑critic框架与时间差分算法,实现低方差的同时更适用于连续动作空间,实现边训练边学习的效果。设计具有艏向转角限制的连续动作空间,且采用4个线程并行学习训练,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障探索空间的高利用性与探索策略的多样性,从而提升算法收敛性、稳定性以及避障成功率。
-
公开(公告)号:CN110632931A
公开(公告)日:2019-12-31
申请号:CN201910953396.4
申请日:2019-10-09
Applicant: 哈尔滨工程大学
IPC: G05D1/02
Abstract: 本发明公开一种动态环境下基于深度强化学习的移动机器人避碰规划方法,属于移动机器人导航技术领域。本发明通过激光测距仪采集原始数据,将原始数据处理后作为神经网络的输入,建立LSTM神经网络,通过A3C算法,神经网络输出相应参数,经过处理获得机器人每一步的动作。本发明无需对环境进行建模,更加适用于未知障碍物环境,采用actor-critic框架与时间差分算法,实现低方差的同时更适用于连续动作空间,实现边训练边学习的效果。设计具有艏向转角限制的连续动作空间,且采用4个线程并行学习训练,与一般深度强化学习方法相比,大大提高学习训练时间,减少样本相关性,保障探索空间的高利用性与探索策略的多样性,从而提升算法收敛性、稳定性以及避障成功率。
-
公开(公告)号:CN109740742A
公开(公告)日:2019-05-10
申请号:CN201910041887.1
申请日:2019-01-14
Applicant: 哈尔滨工程大学
Abstract: 一种基于LSTM神经网络的目标跟踪方法,属于目标跟踪技术领域。本发明利用长短时记忆模型(LSTM)对复杂、非线性运动的目标跟踪,解决目标跟踪困难、目标模型难以建立和跟踪精度低的问题;首先采集目标的经纬度信息和速度信息,将采集的数据进行数据处理;然后设计用于单目标跟踪的LSTM神经网络结构;最后调节LSTM神经网络参数以实现目标跟踪。本发明有效的简化了非线性滤波过程并能对复杂的非线性目标进行有效跟踪;不需要建立目标运动模型和利用传统的滤波算法;利用历史的目标运动信息来预估下一时刻的目标运动状态;利用反向传播算法调节神经网络的内部参数;学习率衰减的方法减小计算量并提高精度。
-
-
-
-