-
公开(公告)号:CN116430860A
公开(公告)日:2023-07-14
申请号:CN202310315829.X
申请日:2023-03-28
Applicant: 兰州大学
IPC: G05D1/02
Abstract: 本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括(1)人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;(2)使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;(3)获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;(4)利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。
-
公开(公告)号:CN116430860B
公开(公告)日:2024-09-24
申请号:CN202310315829.X
申请日:2023-03-28
Applicant: 兰州大学
Abstract: 本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括(1)人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;(2)使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;(3)获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;(4)利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。
-
公开(公告)号:CN117103255A
公开(公告)日:2023-11-24
申请号:CN202311033984.9
申请日:2023-08-17
Applicant: 兰州大学
Abstract: 本发明公开了基于直接偏好优化的NAO机器人物体抓取训练方法,包含以下步骤:(1)采集并保存人类专家数据、模仿数据和使用强化学习策略在机器人模拟器中交互抓取动作的轨迹数据;(2)由人类标注员对轨迹数据中的状态动作轨迹序列数据对进行打分,得到基于人类偏好的轨迹数据集;(3)使用人类偏好数据集设计参考策略网络,设计参数化策略网络,结合参考策略网络构建最大似然目标,对目标函数进行梯度下降以得到最优策略;(4)训练目标物体识别模型,将物体识别模型和最优策略部署到真实NAO机器人,对机器人的抓取动作进行评估;(5)迭代训练过程和评估过程,直至机器人能够顺利抓取目标物体。
-
公开(公告)号:CN116052412A
公开(公告)日:2023-05-02
申请号:CN202211487027.9
申请日:2022-11-23
Applicant: 兰州大学
IPC: G08G1/01 , G08G1/0967 , G06F30/27 , G06F17/13 , G06N3/092 , G06N3/084 , G06F111/04
Abstract: 本发明公开了融合物理信息和深度强化学习的自动驾驶车辆控制方法,包含以下步骤:(1)构造连续时间内基于哈密顿‑雅可比‑贝尔曼方程的强化学习偏微分方程,采集车辆行驶中的感知层信息量、动作控制量、奖励值及下一个状态感知层信息量,形成四元组数据并存储;(2)构造基于物理信息的自动驾驶车辆动力学模型并将其求取偏导数添加至强化学习模型约束项中;(3)训练和评估融和物理信息和深度强化学习的自动驾驶车辆控制模型,通过神经网络将车辆运动轨迹样本数据和物理运动学结合构造模型训练函数并在GPU上训练,直到驾驶车辆完成自动控制。本发明结合物理动力学规律和深度强化学习完成模型训练,适用于复杂环境的自动驾驶车辆学习控制。
-
公开(公告)号:CN117764119A
公开(公告)日:2024-03-26
申请号:CN202311782750.4
申请日:2023-12-22
Applicant: 兰州大学
IPC: G06N3/0464 , B25J9/16 , G06N3/084 , G06N3/092
Abstract: 本发明公开一种基于物理信息的双策略网络NAO机器人控制方法,主要包括:(1)构建NAO机器人系统的数学模型,获取机器人搭载的32线激光雷达数据、自身位置信息和摄像头获取的障碍物图像信息;(2)构建连续时间的基于物理信息的双策略网络,并在动作中加入粉色噪声;(3)设计模型的损失函数L,具体涉及强化学习Critic网络的损失函数L1以及基于NAO机器人动力学微分方程的损失函数L2,使用梯度下降方法获得最优避障策略;(4)训练障碍物识别模型,将障碍物识别模型和最优策略部署到NAO机器人上进行评估。本发明将一种基于物理信息的双策略网络算法应用于机器人避障系统中,可以实现连续时间的控制,适用于更加复杂的机器人控制。
-
公开(公告)号:CN117032208A
公开(公告)日:2023-11-10
申请号:CN202310882796.7
申请日:2023-07-18
Applicant: 兰州大学
IPC: G05D1/02
Abstract: 本发明公开了融合人类反馈信息和深度强化学习的履带车自动驾驶方法,包含以下步骤:(1)使用Actor‑Critic算法在环境中探索并保存履带车行驶的轨迹信息,同时使用规则化奖励函数训练自动驾驶车辆的预训练策略;(2)由数据标注员对履带车行驶的轨迹片段进行比较,并根据比较结果标注轨迹片段的奖励值;(3)使用轨迹数据训练基于深度神经网络的奖励函数模型(4)使用PPO算法对预训练策略进行微调直至策略能够控制履带车完成自动驾驶任务。本发明结合人类对行驶轨迹的反馈信息与深度强化学习完成模型的训练,适用于奖励函数不直观且难以人为构造的复杂环境中的履带车自动控制任务。
-
公开(公告)号:CN116052412B
公开(公告)日:2023-08-18
申请号:CN202211487027.9
申请日:2022-11-23
Applicant: 兰州大学
IPC: G08G1/01 , G08G1/0967 , G06F30/27 , G06F17/13 , G06N3/092 , G06N3/084 , G06F111/04
Abstract: 本发明公开了融合物理信息和深度强化学习的自动驾驶车辆控制方法,包含以下步骤:(1)构造连续时间内基于哈密顿‑雅可比‑贝尔曼方程的强化学习偏微分方程,采集车辆行驶中的感知层信息量、动作控制量、奖励值及下一个状态感知层信息量,形成四元组数据并存储;(2)构造基于物理信息的自动驾驶车辆动力学模型并将其求取偏导数添加至强化学习模型约束项中;(3)训练和评估融和物理信息和深度强化学习的自动驾驶车辆控制模型,通过神经网络将车辆运动轨迹样本数据和物理运动学结合构造模型训练函数并在GPU上训练,直到驾驶车辆完成自动控制。本发明结合物理动力学规律和深度强化学习完成模型训练,适用于复杂环境的自动驾驶车辆学习控制。
-
-
-
-
-
-