一种双轮机器人仿真系统及机器人系统

    公开(公告)号:CN113848750A

    公开(公告)日:2021-12-28

    申请号:CN202111075376.5

    申请日:2021-09-14

    申请人: 清华大学

    IPC分类号: G05B17/02

    摘要: 本申请属于机器人仿真技术领域,具体而言涉及一种双轮机器人仿真系统及机器人系统。其中,感知仿真模块利用AirSim的插件对UE4的获取虚拟机器人自身及世界场景的感知信息并进行获取,然后通过数据集处理程序进行预处理;所述规划仿真模块利用AirSim客户端函数接口,通过智能决策规划程序对虚拟仿真场景中双轮智能机器人进行路径规划与运动规划;控制仿真模块通过自建的双轮机器人动力学模型与AirSim插件结合进行双轮机器人的操作控制仿真。本公开能够通过双轮智能机器人的虚拟场景设计制作,应用于感知数据集制作,感知算法调试与测试,规划算法的调试与测试,控制算法的调试与测试以及双轮智能机器人的动画展示演示等任务。

    不均衡数据集知识迁移方法、装置、电子设备和存储介质

    公开(公告)号:CN113780379A

    公开(公告)日:2021-12-10

    申请号:CN202110994099.1

    申请日:2021-08-27

    申请人: 清华大学

    IPC分类号: G06K9/62 G06F16/55 G06F16/583

    摘要: 本申请属于大规模图像的检索方法,具体而言涉及一种不均衡数据集知识迁移方法、装置、电子设备和存储介质。本方法首先对均衡的数据集进行随机采样,得到满足Zipf定律的长尾数据集;利用其中的数据得到每一张图像的直接特征,将每类图片的特征向量求和并求平均,获得类中心特征向量;根据类中心特征向量和每一类的全部特征向量得到每类中与类中心差距最大的数个边缘特征向量;将类中心向量及类边缘特征向量聚合在一起,得到关于整个数据集的记忆力模块;从记忆力模块中选择对应的特征,帮助网络将从头部学到的知识向尾部知识进行迁移。本公开无需根据样本不均衡程度对训练集进行重采样处理,或在计算损失函数时不需要知道样本的不均衡程度。

    无人摩托的动态障碍物避障路径规划计算方法

    公开(公告)号:CN109945885B

    公开(公告)日:2021-01-15

    申请号:CN201910303568.3

    申请日:2019-04-16

    申请人: 清华大学

    IPC分类号: G01C21/34

    摘要: 本发明公开了一种无人摩托的动态障碍物避障路径规划计算方法,该方法包括以下步骤:建立无人摩托的平衡动力学模型与运动学模型;使用自适应分辨率的A*算法,在栅格地图上获取一条连接初始节点与目标节点的通路;结合平衡动力学模型与运动学模型,使用基于视锥的动态障碍物避障算法获得实时控制量,对障碍物进行避让。该方法通过采用低精度地图,多层次展现环境,极大降低算法的运行时间,实现路径规划当中对于实时性的需求,并采用基于视锥的局部规划方式,对障碍物的敏感度调制稳定,有利于穿越多个障碍物。

    基于对抗学习的机械故障迁移诊断方法及系统

    公开(公告)号:CN109947086B

    公开(公告)日:2020-07-28

    申请号:CN201910289486.8

    申请日:2019-04-11

    申请人: 清华大学

    IPC分类号: G05B23/02

    摘要: 本发明公开了一种基于对抗学习的机械故障迁移诊断方法及系统,其中,该方法包括:获取不同工况下机械故障的原始信号进行分析生成不同工况下带标签的源域训练数据集、不带标签的源域训练数据集和目标域测试数据集;根据带标签的源域训练数据集和反向传播算法训练深度卷积神经网络模型生成故障诊断模型;根据不带标签的源域训练数据集和目标域测试数据集对故障诊断模型进行训练;根据带标签的源域训练数据集和反向传播算法对训练后的故障诊断模型进行微调;将不带标签的目标域测试数据集输入微调后的故障诊断模型,输出待测试样本的故障类别。该方法通过对抗学习方法获得域不变特征,实现不同域之前的迁移,实现了对变工况机械故障的智能诊断。

    无人驾驶摩托车视觉导航系统

    公开(公告)号:CN110134136A

    公开(公告)日:2019-08-16

    申请号:CN201910455224.4

    申请日:2019-05-29

    申请人: 清华大学

    IPC分类号: G05D1/08 G05D1/02

    摘要: 本发明公开了一种无人驾驶摩托车视觉导航系统,该系统包括:差分GPS用于获取摩托车定位信息,并将定位信息发送给视觉工控机;激光雷达用于获取车身周围障碍物状态信息发送给视觉工控机;ZED双目摄像头用于获取车身周围三维信息发送给视觉工控机;cRIO运动控制器实时反馈当前摩托车姿态信息发送给视觉工控机;视觉工控机将接收到的障碍物状态信息、三维信息和当前摩托车姿态信息进行处理,得到车身倾角指令,并将车身倾角指令发送给cRIO运动控制器,为摩托车提供平衡控制实现无人驾驶。该视觉导航系统为无人驾驶摩托车障碍规避、轨迹跟踪、路径规划提供了保障,同时,无人驾驶摩托车更加灵活,且油耗和维修费用低。

    无人机的控制方法及系统

    公开(公告)号:CN103901892B

    公开(公告)日:2016-12-07

    申请号:CN201410076856.7

    申请日:2014-03-04

    申请人: 清华大学

    IPC分类号: G05D1/10

    摘要: 本发明提供一种无人机的控制方法及系统,方法包括以下步骤:扫描并生成飞行环境的栅格地图,根据栅格地图信息对飞行环境进行区域划界;根据栅格地图和区域划界结果,利用A*算法规划飞行路径;从规划的飞行路径中选取多个路径点,分别计算多个路径点与周围障碍物的最短距离;以及当对应路径点与障碍物的最短距离大于安全半径时,飞行器可沿该路径点飞行,当最短距离小于安全半径时,使用wall‐following算法规划飞行路径并飞行。根据本发明实施例的方法,根据地图信息对飞行环境进行区域划界,将A*算法与wall‐following算法相结合来规划飞行路径,提高了无人机自主飞行的效率和安全性,同时具有良好的扩展性。

    并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质

    公开(公告)号:CN113779870A

    公开(公告)日:2021-12-10

    申请号:CN202110975035.7

    申请日:2021-08-24

    申请人: 清华大学

    IPC分类号: G06F30/27 G06K9/62

    摘要: 本申请属于机器学习技术领域,具体而言,涉及一种并行化不完美信息博弈策略生成方法、装置、电子设备以及存储介质。该方法包括:利用非完全回忆聚类方法,对不完美信息博弈的原始特征空间进行压缩,得到抽象特征空间;利用MCCFR最小化方法,在所述抽象特征空间内,通过自我博弈,迭代生成蓝图策略;利用特征字符串的哈希算法,对蓝图策略进行分布式存储和更新。该方法使用非完全回忆进行特征空间抽象,提升策略鲁棒性;在MCCFR算法的基础上使用整体期望收益替代后悔值进行间隔更新,使用采样动作频数生成最终策略,结合特征映射和并行框架,提高算法收敛速度,缩短算法训练时间。

    识别与去除环境观测量中冗余信息的方法及装置

    公开(公告)号:CN112101556A

    公开(公告)日:2020-12-18

    申请号:CN202010863637.9

    申请日:2020-08-25

    申请人: 清华大学

    IPC分类号: G06N5/00 G06N3/04

    摘要: 本申请公开了一种识别与去除环境观测量中冗余信息的方法及装置,其中,该方法包括:采用循环神经网络从决策轨迹中提取历史信息,将历史信息结合预设控制策略,生成t时刻对应的各个环境观测量的第一权值,以获取t时刻对应的动作信息;根据历史信息及动作信息,生成对应的动作值函数,并将历史信息结合动作值函数,生成t时刻对应的各个环境观测量的第二权值,根据第二权值,确定输入动作值函数的环境观测量;接着,对动作值函数及控制策略进行更新;在环境观测量的平均影响度小于影响度阈值时,将环境观测量进行置零去除。该方法可有效地识别出并去除环境观测中的冗余信息,从而降低冗余信息对控制策略的干扰。

    共享循环神经网络的高效值函数迭代强化学习方法

    公开(公告)号:CN111582441A

    公开(公告)日:2020-08-25

    申请号:CN202010298982.2

    申请日:2020-04-16

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法,该方法包括:通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。

    基于对抗学习的控制策略模仿学习方法及装置

    公开(公告)号:CN111488988A

    公开(公告)日:2020-08-04

    申请号:CN202010302194.6

    申请日:2020-04-16

    申请人: 清华大学

    IPC分类号: G06N3/08 G06F30/20

    摘要: 本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。