-
公开(公告)号:CN118559711A
公开(公告)日:2024-08-30
申请号:CN202410784930.4
申请日:2024-06-18
Applicant: 哈尔滨工业大学
IPC: B25J9/16
Abstract: 基于视觉语言大模型的机器人操纵方法,本发明涉及人工智能和具身智能领域,具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为:将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型;视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态;视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态;对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算,将解算后的各关节角度输入舵机,对舵机进行PID控制完成机械臂的动作。
-
公开(公告)号:CN119360156A
公开(公告)日:2025-01-24
申请号:CN202411476338.4
申请日:2024-10-22
IPC: G06V10/774 , G06V10/764 , G06N3/0895 , G06N3/094 , G06N3/0455
Abstract: 一种基于对抗攻击的图像自监督训练方法,它属于计算机视觉领域。本发明解决了传统MIM任务的重点语义信息缺失,导致对语义信息模式的学习能力差以及MIM的泛化能力差的问题。本发明首先对图像中非语义信息部分进行掩码处理,特别是在攻击前后变化最显著的区域,而对其余部分则进行随机掩码。通过这种掩码方式,可以在最大程度保留语义信息的基础上,生成针对语义信息部分的模型重建任务,从而增强模型对语义信息的理解能力。在随后的下游任务微调阶段,通过像素级PGD攻击的对抗训练,深化模型对语义信息的感知能力,显著提高了模型的泛化能力、抗干扰鲁棒性和语义信息提取能力。本发明方法可以应用于图像自监督训练。
-