-
公开(公告)号:CN116465426A
公开(公告)日:2023-07-21
申请号:CN202310673755.7
申请日:2023-06-08
Abstract: 本发明公开了一种自动驾驶出租车巡航路径和速度规划方法及装置,本发明的路径规划方法包括:获取历史巡航路径,并划分得到包括训练集和测试集的若干组合;对道路网络数据采用预设路径奖励学习模型学习得到初步路径奖励;计算巡航策略;选择任一组合的训练集,基于所述巡航策略学习得到当前训练集的第一期望路径访问频率;根据第一期望路径访问频率和对应第一实际路径访问频率对预设路径奖励学习模型进行更新;基于巡航策略学习得到每个测试集的第二期望路径访问频率,并结合对应第二实际路径访问频率计算得到初步规划奖励的系数;基于系数将初步规划奖励组合得到综合规划奖励;根据最终路径奖励确定最优巡航路径。本发明所需数据少,且效果更佳。
-
公开(公告)号:CN115762199B
公开(公告)日:2023-09-29
申请号:CN202211145915.2
申请日:2022-09-20
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度强化学习和逆强化学习的交通灯控制方法,首先建立交通灯控制系统的马尔科夫决策模型,并依据现有深度网络模型,搭建基于深度强化学习的交通灯控制框架。本发明的创新点在于引入了相对熵逆强化学习算法以优化奖励函数设计。根据专家决策生成的系统状态转移轨迹,通过逆强化学习算法提取专家内含的决策逻辑,即隐藏奖励函数,实现了对专家经验的有效利用,算法对专家轨迹中的噪声具有较好的鲁棒性。本发明能够在单个交叉路口的均衡车流和非均衡车流场景下,取得优于传统控制方案的效果,并进一步提升深度强化学习算法的控制性能。
-
公开(公告)号:CN115762199A
公开(公告)日:2023-03-07
申请号:CN202211145915.2
申请日:2022-09-20
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度强化学习和逆强化学习的交通灯控制方法,首先建立交通灯控制系统的马尔科夫决策模型,并依据现有深度网络模型,搭建基于深度强化学习的交通灯控制框架。本发明的创新点在于引入了相对熵逆强化学习算法以优化奖励函数设计。根据专家决策生成的系统状态转移轨迹,通过逆强化学习算法提取专家内含的决策逻辑,即隐藏奖励函数,实现了对专家经验的有效利用,算法对专家轨迹中的噪声具有较好的鲁棒性。本发明能够在单个交叉路口的均衡车流和非均衡车流场景下,取得优于传统控制方案的效果,并进一步提升深度强化学习算法的控制性能。
-
-