Patent search ap:("北京理工大学") AND inv:"张华卿" Page 1

1.

发明授权
一种移动机器人深度强化学习控制方法有权

公开(公告)号：CN114626505B

公开(公告)日：2025-01-07

申请号：CN202210207885.7

申请日：2022-03-04

Applicant: 北京理工大学

Inventor： 马宏宾 , 张华卿 , 金英

IPC: G06N3/04 , G06N3/08

Abstract: 本发明涉及一种移动机器人深度强化学习控制方法，属于机器人智能控制技术领域。在机器人学习行为策略阶段，本发明在最大熵强化学习框架下提出了一种具有历史行为重用的off‑policy似然比策略梯度模型学习算法，用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率，从而提高了学习速度和采样效率，节省了机器人与环境的交互成本。同时，在对机器人的行为策略模型进行评估阶段，本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数，通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数，该评价网络具有学习速度快、能够减小参数累积误差的优势。

2.

发明公开
一种基于两方博弈的无人系统主动目标监控方法审中-实审

公开(公告)号：CN115618738A

公开(公告)日：2023-01-17

申请号：CN202211340151.2

申请日：2022-10-28

Applicant: 北京理工大学

Inventor： 马宏宾 , 麻景翔 , 金英 , 张华卿 , 李东 , 刘萍

IPC: G06F30/27 , G06F119/02

Abstract: 本发明涉及一种基于两方博弈的无人系统主动目标监控方法，属于人工智能与目标监控技术领域。本方法充分考虑了目标监控任务中的目标运动的不确定性和对抗性，以及长时间监控中的监控能力，基于两方博弈构建了两个独立智能体交互过程，将整个监控过程分为监控阶段和搜索阶段，分别设计奖励函数。通过提升目标策略的多样性，实现监控者的奖励提升，从而延长监控过程的持续时间，减少搜索过程时间，提升了监控者在长时间监控任务中的监控性能。

3.

发明公开
一种自适应调整范围的无人机群目标三维持续监控方法审中-实审

公开(公告)号：CN115542945A

公开(公告)日：2022-12-30

申请号：CN202211331938.2

申请日：2022-10-28

Applicant: 北京理工大学

Inventor： 马宏宾 , 麻景翔 , 金英 , 刘萍 , 李东 , 张华卿

IPC: G05D1/10

Abstract: 本发明涉及一种自适应调整范围的无人机群目标三维持续监控方法，属于无人机目标监控技术领域。本方法针对基于视觉检测的单无人机群目标三维持续监控问题，利用了有权图结构对群目标进行建模，在水平方向上，通过寻找中心位置进行飞行决策，在高度方向上，利用离线数据集结合离线强化学习算法，在考无人机虑能耗及视觉系准确率的情况下，实现自适应飞行高度决策。本方法能够自适应的调整无人机的检测范围，有效提升了单个无人机的监控性能。

4.

发明公开
一种基于多智能体强化学习的自动驾驶车辆控制方法审中-实审

公开(公告)号：CN116394968A

公开(公告)日：2023-07-07

申请号：CN202211546947.3

申请日：2022-12-05

Applicant: 北京理工大学

Inventor： 马宏宾 , 刘萍 , 金英 , 麻景翔 , 张华卿

IPC: B60W60/00 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/092 , B60W50/00 , B60W40/08

Abstract: 本发明涉及一种基于多智能体强化学习的自动驾驶车辆控制方法，属于人工智能和自动驾驶技术领域。针对自动驾驶车辆场景，本方法提出了一个用于AVs的多智能体自适应决策框架。首先考虑乘客的个性化需求，为AVs制定不同的驾驶风格，用于后续决策建模过程中。利用联盟博弈和V2V通信，以每个网联自动驾驶车辆CAV为中心划分多智能体系统，从而构建合作决策区域。然后，基于模型预测控制中的滚动时域，构建了一个深度强化学习决策框架，以实现CAV在合作区域里的运动决策。在完全自动驾驶车辆的场景下，本发明不仅能够保证在高速主干车道上的安全性和效率，而且对于匝道合流区域的安全性、舒适度和效率也能够得到保障。

5.

发明公开
一种移动机器人深度强化学习控制方法有权

公开(公告)号：CN114626505A

公开(公告)日：2022-06-14

申请号：CN202210207885.7

申请日：2022-03-04

Applicant: 北京理工大学

Inventor： 马宏宾 , 张华卿 , 金英

IPC: G06N3/04 , G06N3/08

Abstract: 本发明涉及一种移动机器人深度强化学习控制方法，属于机器人智能控制技术领域。在机器人学习行为策略阶段，本发明在最大熵强化学习框架下提出了一种具有历史行为重用的off‑policy似然比策略梯度模型学习算法，用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率，从而提高了学习速度和采样效率，节省了机器人与环境的交互成本。同时，在对机器人的行为策略模型进行评估阶段，本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数，通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数，该评价网络具有学习速度快、能够减小参数累积误差的优势。

6.

发明公开
一种集群无人机在线协同搜索方法审中-实审

公开(公告)号：CN117389329A

公开(公告)日：2024-01-12

申请号：CN202311180756.4

申请日：2023-09-13

Applicant: 北京理工大学

Inventor： 马宏宾 , 张华卿

IPC: G05D1/695 , G05D109/20

Abstract: 本发明涉及一种集群无人机在线协同搜索方法，属于无人机协同控制技术领域。本发明在多无人机协同搜索中设计了一种用于蚁群优化的信息素矩阵一致性更新算法。同时，为了保证每架无人机在不稳定通信链路情况下能够获得集群内所有其他无人机的位置，提出了一种位置一致性更新方法。集群内的每架无人机都利用获得的一致性位置实现避碰。在集群通信链路不稳定或不是全连接的通信链路情况下，只要通信拓扑中具有生成树，本发明的信息素矩阵一致性更新方法就能够保证信息素矩阵一致，保证每架无人机能够获取集群内所有无人机的一致性位置。

7.

发明公开
一种基于离线强化学习的动态环境机器人自适应控制方法审中-实审

公开(公告)号：CN115657477A

公开(公告)日：2023-01-31

申请号：CN202211253192.8

申请日：2022-10-13

Applicant: 北京理工大学

Inventor： 马宏宾 , 张华卿 , 金英

IPC: G05B13/04

Abstract: 本发明涉及一种基于离线强化学习的动态环境机器人自适应控制方法，属于机器人智能控制技术领域。在机器人行为策略学习阶段，提出一种历史行为重用策略提升的离线强化学习机器人控制方法，使机器人能够利用存在大量噪声的专家数据集进行行为学习，提高了学习速度和和样本利用率，在机器人的智能控制中节省了机器人与环境的交互成本。在对机器人的策略进行评估阶段，提出了一种稳定的策略评估方法，能够对机器人的行为策略进行有效评价。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification