三维点云密集字幕生成与视觉定位的联合推理方法及装置

    公开(公告)号:CN118433331A

    公开(公告)日:2024-08-02

    申请号:CN202410347891.1

    申请日:2024-03-26

    Applicant: 厦门大学

    Abstract: 本发明公开了一种三维点云密集字幕生成和视觉定位的联合推理方法及装置,涉及三维视觉任务技术领域。所述方法包括:将双线索描述生成器DCC作为密集字幕生成模块引入基于DETR架构的3DVG模型构成联合模型,DCC处理双重视觉线索Vc=(Q,V),在描述一个提议时,标准的“序列开始标记”前缀被描述查询中的查询Q替换,以识别焦点中的物体,同时引入视觉特征V作为物体与周围环境互动和关系信息的载体;模型推理时,描述性文本包括3DVG描述文本和/或3DDC描述文本,得到描述的目标框和/或所有标签框及对应的密集的字幕。本发明提供的一种三维点云密集字幕生成和视觉定位的联合推理方法及装置,通过构建单阶段的联合推理框架实现了高效的端到端训练。

Patent Agency Ranking