-
公开(公告)号:CN115542915B
公开(公告)日:2023-10-31
申请号:CN202211222692.5
申请日:2022-10-08
Applicant: 中国矿业大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。
-
公开(公告)号:CN117952186A
公开(公告)日:2024-04-30
申请号:CN202410202828.9
申请日:2024-02-23
Applicant: 中国矿业大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法,首先,鉴于现有的策略约束方法不能准确地表达行为策略,并且倾向于选择行为策略支持集内概率密度更大的动作,引入扩散模型用于准确表达行为策略;然后,训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作;最后,给生成动作添加可训练扰动,使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作,同时避免行为策略密度分布的影响。
-
公开(公告)号:CN115542915A
公开(公告)日:2022-12-30
申请号:CN202211222692.5
申请日:2022-10-08
Applicant: 中国矿业大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。
-
公开(公告)号:CN117952186B
公开(公告)日:2024-07-12
申请号:CN202410202828.9
申请日:2024-02-23
Applicant: 中国矿业大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法,首先,鉴于现有的策略约束方法不能准确地表达行为策略,并且倾向于选择行为策略支持集内概率密度更大的动作,引入扩散模型用于准确表达行为策略;然后,训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作;最后,给生成动作添加可训练扰动,使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作,同时避免行为策略密度分布的影响。
-
-
-