一种融合历史信息的强化学习路径规划方法

    公开(公告)号:CN115629607A

    公开(公告)日:2023-01-20

    申请号:CN202211306866.6

    申请日:2022-10-25

    Abstract: 本发明涉及机器人路径规划技术领域,具体涉及一种融合历史信息的强化学习路径规划方法,包括以下步骤:S1:获取环境图像,建立格栅地图;S2:定义强化学习状态空间和动作空间;S3:初始化算法参数;S4:动态调整动作空间;S5:在调整后的动作空间中,采用ε‑贪婪策略选择动作;S6:执行动作,更新Q值;S7:复执行第四步、第五步、第六步,直到达到一定步数或一定收敛条件为止;S8:每一步选择Q值最大的动作,得出最优路径;S9:把最优路径发送给移动机器人的控制器,控制移动机器人按照最优行走。

    一种改进的Dyna-Q学习路径规划算法

    公开(公告)号:CN112964272A

    公开(公告)日:2021-06-15

    申请号:CN202110278598.0

    申请日:2021-03-16

    Abstract: 本发明将基于模型的算法和模型无关的算法相结合的Dyna框架结合Q‑learning算法应用于移动机器人路径规划,同时为了加快算法的收敛,在Q值初始化时引入人工势场法初始化Q值,仿真实验表明,加入规划后的算法收敛前的运行幕数会大大减少,并且规划步数越大算法收敛前运行幕数越少,但是加入规划会增加算法的时间复杂度;改进的Dyna‑Q学习算法加快了算法的收敛速度,能够高效的完成移动机器人在未知环境中的路径规划问题。

    一种融合先验知识的改进Q-learning路径规划算法

    公开(公告)号:CN112595326A

    公开(公告)日:2021-04-02

    申请号:CN202011559504.9

    申请日:2020-12-25

    Abstract: 本发明公开了一种融合先验知识的改进Q‑learning路径规划算法,其特征在于:包括以下步骤:S1:建立格栅地图,融入先验知识初始化状态值;S2:初始化算法参数;S3:计算已运行当前幕成功到达目标位置次数,并基于该次数动态调整贪婪因子ε;S4:生成随机数p,比较p和ε;S5:如果p

    一种融合历史信息的强化学习路径规划方法

    公开(公告)号:CN115629607B

    公开(公告)日:2025-02-25

    申请号:CN202211306866.6

    申请日:2022-10-25

    Abstract: 本发明涉及机器人路径规划技术领域,具体涉及一种融合历史信息的强化学习路径规划方法,包括以下步骤:S1:获取环境图像,建立格栅地图;S2:定义强化学习状态空间和动作空间;S3:初始化算法参数;S4:动态调整动作空间;S5:在调整后的动作空间中,采用ε‑贪婪策略选择动作;S6:执行动作,更新Q值;S7:复执行第四步、第五步、第六步,直到达到一定步数或一定收敛条件为止;S8:每一步选择Q值最大的动作,得出最优路径;S9:把最优路径发送给移动机器人的控制器,控制移动机器人按照最优行走。

    融合驾驶风格的深度强化学习车辆跟驰模型的构建方法

    公开(公告)号:CN115285135A

    公开(公告)日:2022-11-04

    申请号:CN202210824663.X

    申请日:2022-07-14

    Abstract: 本发明涉及一种融合驾驶风格的深度强化学习车辆跟驰模型的构建方法,基于NGSIM项目实测高精度交通流数据集,设定相应的规则对原始数据进行筛选,得到符合条件的跟驰对数据,将跟车对数据分为训练数据和验证数据。基于训练数据对驾驶人的驾驶特性进行分析,同时基于支持向量机算法搭建了驾驶风格辨识模型。基于对不同特性驾驶员的跟驰行为分析结果,融合不同驾驶风格的跟车间距设计强化学习奖励函数搭建基于深度确定性策略梯度算法的跟驰模型。在所搭建的训练环境中对模型进行训练得到不同驾驶风格的深度强化学习跟驰模型,基于验证数据的仿真结果显示,所搭建的跟驰模型在保证安全性和舒适性的前提下能够体现不同的驾驶特性。

    一种引入人工势场的强化学习路径规划方法

    公开(公告)号:CN112344944B

    公开(公告)日:2022-08-05

    申请号:CN202011327198.6

    申请日:2020-11-24

    Abstract: 本发明公开了一种引入人工势场的强化学习路径规划方法,包括以下步骤:S1、建立格栅地图,引入引力场函数初始化状态值,获得用于训练强化学习智能体的仿真环境;S2、初始化算法参数;S3、采用动态因子调整策略选择动作;S4、执行动作,更新Q值;S5、重复执行第三步、第四步,直到达到一定步数或一定收敛条件为止;S6、每一步选择Q值最大的动作,得出最优路径;S7、把最优路径发送给移动机器人的控制器,控制移动机器人按照最优路径行走。本发明中改进的Q‑learning算法相较于传统算法在路径规划时间上缩短85.1%,收敛前迭代次数减少74.7%,同时算法的收敛结果稳定性也得到了提升。

    一种引入人工势场的强化学习路径规划方法

    公开(公告)号:CN112344944A

    公开(公告)日:2021-02-09

    申请号:CN202011327198.6

    申请日:2020-11-24

    Abstract: 本发明公开了一种引入人工势场的强化学习路径规划方法,包括以下步骤:S1、建立格栅地图,引入引力场函数初始化状态值,获得用于训练强化学习智能体的仿真环境;S2、初始化算法参数;S3、采用动态因子调整策略选择动作;S4、执行动作,更新Q值;S5、重复执行第三步、第四步,直到达到一定步数或一定收敛条件为止;S6、每一步选择Q值最大的动作,得出最优路径;S7、把最优路径发送给移动机器人的控制器,控制移动机器人按照最优路径行走。本发明中改进的Q‑learning算法相较于传统算法在路径规划时间上缩短85.1%,收敛前迭代次数减少74.7%,同时算法的收敛结果稳定性也得到了提升。

Patent Agency Ranking