Patent search ap:("中国矿业大学") AND inv:"赵忠祥" Page 1

1.

发明公开
一种落叶检测预测框损失函数计算方法有权

公开(公告)号：CN113269055A

公开(公告)日：2021-08-17

申请号：CN202110488329.7

申请日：2021-05-06

Applicant: 中国矿业大学

Inventor： 缪燕子 , 张宗伟 , 王贺升 , 赵忠祥 , 代伟 , 王啸林 , 翟煜 , 史延诺 , 王志铭 , 王玥

IPC: G06K9/00 , G06K9/62

Abstract: 本发明针对智能清扫装置对成片落叶检测难、效率低的问题，提出一种用于落叶检测的预测框损失函数—引力损失函数(AIoU Loss)的计算方法。通过引入预测框间的距离参数，使用最小外接矩形框替换符合条件的原预测框，达到预测成片落叶的效果。本发明解决了在检测落叶时，区分单片落叶和成片落叶的问题，使智能落叶清扫装置更准确的定位落叶地点，提高清扫效率。

2.

发明公开
一种基于逆扩散引导策略的离线强化学习方法有权

公开(公告)号：CN117952186A

公开(公告)日：2024-04-30

申请号：CN202410202828.9

申请日：2024-02-23

Applicant: 中国矿业大学

Inventor： 王雪松 , 张佳志 , 程玉虎 , 李会军 , 赵忠祥

IPC: G06N3/092

Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法，首先，鉴于现有的策略约束方法不能准确地表达行为策略，并且倾向于选择行为策略支持集内概率密度更大的动作，引入扩散模型用于准确表达行为策略；然后，训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作；最后，给生成动作添加可训练扰动，使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作，同时避免行为策略密度分布的影响。

3.

发明公开
一种基于近似安全动作的自动驾驶强化学习方法有权

公开(公告)号：CN115542915A

公开(公告)日：2022-12-30

申请号：CN202211222692.5

申请日：2022-10-08

Applicant: 中国矿业大学

Inventor： 王雪松 , 张佳志 , 程玉虎 , 赵忠祥

IPC: G05D1/02

Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法，首先，鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；然后，智能车执行近似安全动作，收集经验样本并存入经验池；最后，利用精确惩罚优化方法对策略进行优化，使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。

4.

发明授权
一种基于逆扩散引导策略的离线强化学习方法有权

公开(公告)号：CN117952186B

公开(公告)日：2024-07-12

申请号：CN202410202828.9

申请日：2024-02-23

Applicant: 中国矿业大学

Inventor： 王雪松 , 张佳志 , 程玉虎 , 李会军 , 赵忠祥

IPC: G06N3/092

Abstract: 本发明公开了一种基于逆扩散引导策略的离线强化学习方法，首先，鉴于现有的策略约束方法不能准确地表达行为策略，并且倾向于选择行为策略支持集内概率密度更大的动作，引入扩散模型用于准确表达行为策略；然后，训练逆扩散引导策略引导预训练的扩散模型准确生成行为策略支持集内的动作；最后，给生成动作添加可训练扰动，使学习策略可以逃离行为策略的性能限制。本发明可以灵活地在行为策略支持内选择最优动作，同时避免行为策略密度分布的影响。

5.

发明公开
一种基于同策略正则化策略评估的离线强化学习方法审中-实审

公开(公告)号：CN117875451A

公开(公告)日：2024-04-12

申请号：CN202410056084.4

申请日：2024-01-15

Applicant: 中国矿业大学

Inventor： 程玉虎 , 曹硕 , 王雪松 , 李会军 , 赵忠祥

IPC: G06N20/00 , G06F18/214 , G06N3/045 , G06N3/084

Abstract: 本发明公开了一种基于同策略正则化策略评估的离线强化学习方法，首先根据同策略强化学习的需求，采样状态‑动作‑奖励‑状态‑动作形式，即SARSA‑style的经验转换数据作为训练样本；然后在同策略正则化策略评估过程中，利用SARSA‑style自举的同策略动作构建保守的近似同策略Q函数和同‑异策略动作惩罚项，来共同正则化异策略Q学习形式，即QL‑style的最优Q函数；最后在策略提升的配合下，不断地从上述稳定估计的学习最优Q函数提取高性能任务解决策略。本发明在不访问各类估计行为策略和行为Q函数的情况下，能够稳定且自然地将同策略的保守性引入到学习Q函数，并将学习Q函数可控地限制在其真实值附近。

6.

发明授权
一种落叶检测预测框损失函数计算方法有权

公开(公告)号：CN113269055B

公开(公告)日：2024-02-13

申请号：CN202110488329.7

申请日：2021-05-06

Applicant: 中国矿业大学

Inventor： 缪燕子 , 张宗伟 , 王贺升 , 赵忠祥 , 代伟 , 王啸林 , 翟煜 , 史延诺 , 王志铭 , 王玥

IPC: G06V20/40 , G06V20/52 , G06V10/80 , G06V10/75

Abstract: 本发明针对智能清扫装置对成片落叶检测难、效率低的问题，提出一种用于落叶检测的预测框损失函数—引力损失函数(AIoU Loss)的计算方法。通过引入预测框间的距离参数，使用最小外接矩形框替换符合条件的原预测框，达到预测成片落叶的效果。本发明解决了在检测落叶时，区分单片落叶和成片落叶的问题，使智能落叶清扫装置更准确的定位落叶地点，提高清扫效率。

7.

发明公开
一种清洁机器人的全覆盖路径规划方法无效

公开(公告)号：CN110456789A

公开(公告)日：2019-11-15

申请号：CN201910666449.4

申请日：2019-07-23

Applicant: 中国矿业大学

Inventor： 缪燕子 , 罗浩航 , 马小平 , 王贺升 , 赵忠祥

IPC: G05D1/02

Abstract: 本发明公开一种清洁机器人的全覆盖路径规划方法，属于智能控制技术领域，当清洁机器人进入死区无法前进时，通过野火算法搜索到距离清洁机器人最近的未清扫栅格，再通过A*算法规划出清洁机器人到距离其最近的未清扫栅格之间的最短路径，并按照规划出的路径跳出死区，然后继续向前进行清扫工作，能够保证清洁机器人完成全覆盖的清扫工作。

8.

发明授权
一种基于近似安全动作的自动驾驶强化学习方法有权

公开(公告)号：CN115542915B

公开(公告)日：2023-10-31

申请号：CN202211222692.5

申请日：2022-10-08

Applicant: 中国矿业大学

Inventor： 王雪松 , 张佳志 , 程玉虎 , 赵忠祥

IPC: G05D1/02

Abstract: 本发明公开了一种基于近似安全动作的自动驾驶强化学习方法，首先，鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生，引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作；然后，智能车执行近似安全动作，收集经验样本并存入经验池；最后，利用精确惩罚优化方法对策略进行优化，使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。

9.

发明授权
一种基于安全互模拟度量的视觉强化学习方法有权

公开(公告)号：CN117933349B

公开(公告)日：2024-07-26

申请号：CN202410106823.6

申请日：2024-01-25

Applicant: 中国矿业大学

Inventor： 王雪松 , 王荣荣 , 程玉虎 , 王浩宇 , 李会军 , 赵忠祥

IPC: G06N3/092

Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法，首先，建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型，并初始化模型参数；对于每个环境步，收集经验样本，构建拉格朗日损失函数，并更新拉格朗日乘子；对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，构建安全强化学习模型并更新模型参数；最后，重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征，同时满足预设的安全约束要求。

10.

发明公开
一种基于安全互模拟度量的视觉强化学习方法有权

公开(公告)号：CN117933349A

公开(公告)日：2024-04-26

申请号：CN202410106823.6

申请日：2024-01-25

Applicant: 中国矿业大学

Inventor： 王雪松 , 王荣荣 , 程玉虎 , 王浩宇 , 李会军 , 赵忠祥

IPC: G06N3/092

Abstract: 本发明公开了一种基于安全互模拟度量的视觉强化学习方法，首先，建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型，并初始化模型参数；对于每个环境步，收集经验样本，构建拉格朗日损失函数，并更新拉格朗日乘子；对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，构建安全强化学习模型并更新模型参数；最后，重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征，同时满足预设的安全约束要求。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification