基于双模态交互的开放词汇三维场景理解方法

    公开(公告)号:CN118606900B

    公开(公告)日:2024-10-11

    申请号:CN202411081166.0

    申请日:2024-08-08

    Abstract: 本发明涉及涉及图像处理和计算机视觉技术领域,公开基于双模态交互的开放词汇三维场景理解方法,包括以下步骤:将原始点云数据输入三维场景理解模型,得到三维场景理解特征,所述三维场景理解特征同时具有文本信息描述和点云特征向量;所述三维场景理解模型包括点云特征提取网络、预训练图像语义提案网络、预训练图像生成文本网络、预训练文本编码网络、自适应语言文本编码器;构建损失函数对所述三维场景理解模型进行训练,所述损失函数包括实例预测损失函数、分类损失函数、图文匹配损失函数、关联损失函数。本发明结合点云、图像和语言类的模型,通过开放词汇和未见类别提高对三维场景的理解。

    基于双模态交互的开放词汇三维场景理解方法

    公开(公告)号:CN118606900A

    公开(公告)日:2024-09-06

    申请号:CN202411081166.0

    申请日:2024-08-08

    Abstract: 本发明涉及涉及图像处理和计算机视觉技术领域,公开基于双模态交互的开放词汇三维场景理解方法,包括以下步骤:将原始点云数据输入三维场景理解模型,得到三维场景理解特征,所述三维场景理解特征同时具有文本信息描述和点云特征向量;所述三维场景理解模型包括点云特征提取网络、预训练图像语义提案网络、预训练图像生成文本网络、预训练文本编码网络、自适应语言文本编码器;构建损失函数对所述三维场景理解模型进行训练,所述损失函数包括实例预测损失函数、分类损失函数、图文匹配损失函数、关联损失函数。本发明结合点云、图像和语言类的模型,通过开放词汇和未见类别提高对三维场景的理解。

    基于语义SAM大模型的三维点云鲁棒性部件分割方法

    公开(公告)号:CN118397282B

    公开(公告)日:2024-08-30

    申请号:CN202410849292.X

    申请日:2024-06-27

    Abstract: 本发明涉及计算机视觉技术领域,公开基于语义SAM大模型的三维点云鲁棒性部件分割方法,包括步骤:将三维点云数据通过多视角投影到二维深度图;使用语义SAM大模型融合各个视角下的二维深度图,得到融合特征图,以学习融合特征图中的部件级语义信息;通过适配器模块微调语义SAM大模型,将各个视角的二维深度图作为训练数据,对语义SAM大模型进行训练,使语义SAM大模型输出二维分割结果;语义SAM大模型将输出的二维分割结果集成回三维点云数据中,实现部件的三维点云分割。本发明提升了三维点云分割在复杂环境下的鲁棒性。

Patent Agency Ranking