-
公开(公告)号:CN119567268A
公开(公告)日:2025-03-07
申请号:CN202510005797.2
申请日:2025-01-03
Applicant: 华中科技大学
IPC: B25J9/16
Abstract: 本发明公开了一种基于多模态大视觉语言模型的机械臂操作方法,首先通过视觉传感器采集机械臂操作场景的图像数据,并结合语音识别模块或文本输入模块获取用户指令,将自然语言指令与视觉场景数据输入至多模态大视觉语言模型进行多模态任务解析。模型对场景中目标物体的类别、位置及其属性进行识别,并结合输入指令生成具体的操作序列。随后,系统根据解析生成的操作序列,直接驱动机械臂执行相应任务,包括目标物体的抓取、移动、放置等具体动作,在任务执行过程中,机械臂根据预先生成的操作序列依次完成动作。本发明有效解决了现有技术中机械臂对复杂任务指令解析不准确、操作灵活性和适应性不足以及动态环境中实时响应能力较差的问题。