-
公开(公告)号:CN113269055A
公开(公告)日:2021-08-17
申请号:CN202110488329.7
申请日:2021-05-06
Applicant: 中国矿业大学
Abstract: 本发明针对智能清扫装置对成片落叶检测难、效率低的问题,提出一种用于落叶检测的预测框损失函数—引力损失函数(AIoU Loss)的计算方法。通过引入预测框间的距离参数,使用最小外接矩形框替换符合条件的原预测框,达到预测成片落叶的效果。本发明解决了在检测落叶时,区分单片落叶和成片落叶的问题,使智能落叶清扫装置更准确的定位落叶地点,提高清扫效率。
-
公开(公告)号:CN117952186A
公开(公告)日:2024-04-30
申请号:CN202410202828.9
申请日:2024-02-23
Applicant: 中国矿业大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法,首先,鉴于现有的策略约束方法不能准确地表达行为策略,并且倾向于选择行为策略支持集内概率密度更大的动作,引入扩散模型用于准确表达行为策略;然后,训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作;最后,给生成动作添加可训练扰动,使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作,同时避免行为策略密度分布的影响。
-
公开(公告)号:CN115542915A
公开(公告)日:2022-12-30
申请号:CN202211222692.5
申请日:2022-10-08
Applicant: 中国矿业大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。
-
公开(公告)号:CN117952186B
公开(公告)日:2024-07-12
申请号:CN202410202828.9
申请日:2024-02-23
Applicant: 中国矿业大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法,首先,鉴于现有的策略约束方法不能准确地表达行为策略,并且倾向于选择行为策略支持集内概率密度更大的动作,引入扩散模型用于准确表达行为策略;然后,训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作;最后,给生成动作添加可训练扰动,使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作,同时避免行为策略密度分布的影响。
-
公开(公告)号:CN117875451A
公开(公告)日:2024-04-12
申请号:CN202410056084.4
申请日:2024-01-15
Applicant: 中国矿业大学
IPC: G06N20/00 , G06F18/214 , G06N3/045 , G06N3/084
Abstract: 本发明公开了一种基于同策略正则化策略评估的离线强化学习方法,首先根据同策略强化学习的需求,采样状态‑动作‑奖励‑状态‑动作形式,即SARSA‑style的经验转换数据作为训练样本;然后在同策略正则化策略评估过程中,利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项,来共同正则化异策略Q学习形式,即QL‑style的最优Q函数;最后在策略提升的配合下,不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明在不访问各类估计行为策略和行为Q函数的情况下,能够稳定且自然地将同策略的保守性引入到学习Q函数,并将学习Q函数可控地限制在其真实值附近。
-
公开(公告)号:CN113269055B
公开(公告)日:2024-02-13
申请号:CN202110488329.7
申请日:2021-05-06
Applicant: 中国矿业大学
Abstract: 本发明针对智能清扫装置对成片落叶检测难、效率低的问题,提出一种用于落叶检测的预测框损失函数—引力损失函数(AIoU Loss)的计算方法。通过引入预测框间的距离参数,使用最小外接矩形框替换符合条件的原预测框,达到预测成片落叶的效果。本发明解决了在检测落叶时,区分单片落叶和成片落叶的问题,使智能落叶清扫装置更准确的定位落叶地点,提高清扫效率。
-
-
公开(公告)号:CN115542915B
公开(公告)日:2023-10-31
申请号:CN202211222692.5
申请日:2022-10-08
Applicant: 中国矿业大学
IPC: G05D1/02
Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。
-
公开(公告)号:CN117933349B
公开(公告)日:2024-07-26
申请号:CN202410106823.6
申请日:2024-01-25
Applicant: 中国矿业大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。
-
公开(公告)号:CN117933349A
公开(公告)日:2024-04-26
申请号:CN202410106823.6
申请日:2024-01-25
Applicant: 中国矿业大学
IPC: G06N3/092
Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。
-
-
-
-
-
-
-
-
-