一种基于逆扩散引导策略的离线强化学习方法

    公开(公告)号:CN117952186A

    公开(公告)日:2024-04-30

    申请号:CN202410202828.9

    申请日:2024-02-23

    Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法,首先,鉴于现有的策略约束方法不能准确地表达行为策略,并且倾向于选择行为策略支持集内概率密度更大的动作,引入扩散模型用于准确表达行为策略;然后,训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作;最后,给生成动作添加可训练扰动,使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作,同时避免行为策略密度分布的影响。

    一种基于近似安全动作的自动驾驶强化学习方法

    公开(公告)号:CN115542915A

    公开(公告)日:2022-12-30

    申请号:CN202211222692.5

    申请日:2022-10-08

    Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。

    一种基于逆扩散引导策略的离线强化学习方法

    公开(公告)号:CN117952186B

    公开(公告)日:2024-07-12

    申请号:CN202410202828.9

    申请日:2024-02-23

    Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法,首先,鉴于现有的策略约束方法不能准确地表达行为策略,并且倾向于选择行为策略支持集内概率密度更大的动作,引入扩散模型用于准确表达行为策略;然后,训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作;最后,给生成动作添加可训练扰动,使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作,同时避免行为策略密度分布的影响。

    一种基于同策略正则化策略评估的离线强化学习方法

    公开(公告)号:CN117875451A

    公开(公告)日:2024-04-12

    申请号:CN202410056084.4

    申请日:2024-01-15

    Abstract: 本发明公开了一种基于同策略正则化策略评估的离线强化学习方法,首先根据同策略强化学习的需求,采样状态‑动作‑奖励‑状态‑动作形式,即SARSA‑style的经验转换数据作为训练样本;然后在同策略正则化策略评估过程中,利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项,来共同正则化异策略Q学习形式,即QL‑style的最优Q函数;最后在策略提升的配合下,不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明在不访问各类估计行为策略和行为Q函数的情况下,能够稳定且自然地将同策略的保守性引入到学习Q函数,并将学习Q函数可控地限制在其真实值附近。

    一种清洁机器人的全覆盖路径规划方法

    公开(公告)号:CN110456789A

    公开(公告)日:2019-11-15

    申请号:CN201910666449.4

    申请日:2019-07-23

    Abstract: 本发明公开一种清洁机器人的全覆盖路径规划方法,属于智能控制技术领域,当清洁机器人进入死区无法前进时,通过野火算法搜索到距离清洁机器人最近的未清扫栅格,再通过A*算法规划出清洁机器人到距离其最近的未清扫栅格之间的最短路径,并按照规划出的路径跳出死区,然后继续向前进行清扫工作,能够保证清洁机器人完成全覆盖的清扫工作。

    一种基于近似安全动作的自动驾驶强化学习方法

    公开(公告)号:CN115542915B

    公开(公告)日:2023-10-31

    申请号:CN202211222692.5

    申请日:2022-10-08

    Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。

    一种基于安全互模拟度量的视觉强化学习方法

    公开(公告)号:CN117933349B

    公开(公告)日:2024-07-26

    申请号:CN202410106823.6

    申请日:2024-01-25

    Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

    一种基于安全互模拟度量的视觉强化学习方法

    公开(公告)号:CN117933349A

    公开(公告)日:2024-04-26

    申请号:CN202410106823.6

    申请日:2024-01-25

    Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

Patent Agency Ranking