一种基于视觉和语言模型的可形变物体操纵方法和装置

    公开(公告)号:CN119501933A

    公开(公告)日:2025-02-25

    申请号:CN202411640054.4

    申请日:2024-11-18

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于视觉和语言模型的可形变物体操纵方法和装置,方法包括:对可形变物体搭建操作环境,该操作环境包括用于采集可形变物体视觉数据的摄像头和用于操纵可形变物体的机械臂;在操作环境下对可形变物体进行视觉信息捕捉,得到图像数据,并记录对应的语言指令;通过语言模型根据语言指令,提取出关键动作和目标对象,生成操作指令;通过视觉处理模型根据图像数据提取出空间特征;将空间特征和操作指令融合,通过机器学习算法,生成最终的操作策略;将操作策略转化为机械臂的执行指令,以操纵可形变物体;与现有技术相比,本发明显著提高了机器人处理柔性物体的精度与效率,为智能制造、家居和服务等领域的应用提供了有效的技术支持。

    基于深度学习的滑坡灾害识别方法及系统

    公开(公告)号:CN117197653A

    公开(公告)日:2023-12-08

    申请号:CN202310948226.3

    申请日:2023-07-28

    Applicant: 同济大学

    Abstract: 基于深度学习的滑坡灾害识别方法及系统,获取滑坡灾害图像数据,对所述滑坡灾害图像数据进行预处理,预处理的方式包括图像缩放、图像裁剪和数据增强;将预处理后的所述滑坡灾害图像数据输入基于Swin Transformer的基础网络中,通过多层卷积、注意力机制、残差连接操作对所述滑坡灾害图像数据进行特征提取和表征;将特征提取和表征后得到的特征图输出到YOLOv5的检测头,利用锚点框和置信度对特征图进行目标检测和定位;将目标检测和定位得到的初始目标框进行筛选去重,得到最终的滑坡灾害目标框。本发明减少对专业知识和经验的依赖;减少对环境因素的影响,提高系统的稳定性和准确性;能够实现对小目标的高效检测,提高系统的识别准确率和鲁棒性。

    面向具身智能机器人的跨模态自监督学习的感知预测方法

    公开(公告)号:CN119204148A

    公开(公告)日:2024-12-27

    申请号:CN202411316397.5

    申请日:2024-09-20

    Applicant: 同济大学

    Abstract: 本发明涉及一种面向具身智能机器人的跨模态自监督学习的感知预测方法,获取机器人的运动输入向量和感知输入向量并利用认知模型学习二者相关性,学习过程包括:获取机器人行为相关的运动输入向量和感知输入向量,通过分别进行自编码和解码,计算运动输入向量和感知输入向量对应的重构损失;基于自编码后的运动、感知输入向量,通过跨模态查询计算跨模态映射损失;基于运动感知输入向量对应的重构损失,以及跨模态映射损失,加权得到总损失,基于总损失对认知模型的参数进行更新,实现基于自监督学习的模态内隐式表达和模态间联系的建模。与现有技术相比,本发明可以有效提升具身智能机器人行为的自适应水平,具有自主发育和持续学习等优点。

    一种基于关键点检测的柔性物体操纵方法及装置

    公开(公告)号:CN117901114A

    公开(公告)日:2024-04-19

    申请号:CN202410184129.6

    申请日:2024-02-19

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于关键点检测的柔性布料操纵方法,包括以下步骤:步骤1、构建双臂机器人工作空间,所述工作空间包括顶部深度相机,通过所述深度相机对操纵区域内的布料状态及周围环境进行视觉数据的实时捕捉;步骤2、定义多种动作原语;步骤3、利用VIT‑Transformer解码多种动作原语,生成操作策略,输出得到需要执行的动作;步骤4、通过Swin‑Transformer对布料进行关键点检测和识别,选择操作策略,生成动作指令;步骤5、将动作指令发送至双臂机器人,通过双臂机器人执行动作指令。与现有技术相比,本发明能够提高操作效率、提升适应性、提升准确性、降低实施成本以及广泛应用等优点。

    面向具身智能机器人的跨模态自监督学习的感知预测方法

    公开(公告)号:CN119204148B

    公开(公告)日:2025-04-01

    申请号:CN202411316397.5

    申请日:2024-09-20

    Applicant: 同济大学

    Abstract: 本发明涉及一种面向具身智能机器人的跨模态自监督学习的感知预测方法,获取机器人的运动输入向量和感知输入向量并利用认知模型学习二者相关性,学习过程包括:获取机器人行为相关的运动输入向量和感知输入向量,通过分别进行自编码和解码,计算运动输入向量和感知输入向量对应的重构损失;基于自编码后的运动、感知输入向量,通过跨模态查询计算跨模态映射损失;基于运动感知输入向量对应的重构损失,以及跨模态映射损失,加权得到总损失,基于总损失对认知模型的参数进行更新,实现基于自监督学习的模态内隐式表达和模态间联系的建模。与现有技术相比,本发明可以有效提升具身智能机器人行为的自适应水平,具有自主发育和持续学习等优点。

    一种基于引导式跨模态机器人的物体点云重建方法

    公开(公告)号:CN119478220A

    公开(公告)日:2025-02-18

    申请号:CN202411534590.6

    申请日:2024-10-31

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于引导式跨模态机器人的物体点云重建方法,包括:获取机器人单视角下物体的深度图像和对应的RGB图像,进行预处理,获得物体点云残缺数据;采用点云分类编码器对点云分类任务进行编码,并采用点云分类解码器进行解码,得到物体的分类结果;基于物体点云残缺数据,采用点云数据编码器进行位置嵌入编码,得到含有位置编码的点云特征;获取机器人单视角盲区位置的物体的触觉数据,触觉空间编码器进行编码,获得触觉特征;采用视触跨模态融合模块对点云特征和触觉特征进行融合,并在融合过程中利用分类结果进行引导;采用金字塔解码器对融合特征进行解码,得到物体的完整点云。与现有技术相比,本发明具有精度高等优点。

    一种基于多模态融合的柔性物体操控策略生成方法

    公开(公告)号:CN119359801A

    公开(公告)日:2025-01-24

    申请号:CN202411343796.0

    申请日:2024-09-25

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于多模态融合的柔性物体操控策略生成方法,包括:基于人类演示视频,获取目标柔性物体的抓取点二维高斯分布图、三维点云数据和RGB图;基于三维点云数据,获取目标柔性物体的可见性连接图;融合抓取点二维高斯分布图和RGB图,获取融合图;在可见性连接图和融合图中分别提取第一特征和第二特征;融合第一特征和第二特征,获取融合特征;基于融合特征,获取目标柔性物体的最佳抓取点和最佳放置点;基于最佳抓取点和最佳放置点,生成目标柔性物体的操控策略。与现有技术相比,本发明具有改善柔性物体操作的精度、对柔性物体不同状态的适应性强以及减少模拟到现实差距等优点。

Patent Agency Ranking