一种基于多模态特征对齐的视觉定位方法

    公开(公告)号:CN117934803A

    公开(公告)日:2024-04-26

    申请号:CN202410126014.1

    申请日:2024-01-30

    Abstract: 本发明提供了一种基于多模态特征对齐的视觉定位方法。该方法包括:将图片和对应的指称表达输入到特征提取模块中,分别提取多尺度的网格特征和文本特征,利用Deformable DETR模型和网格特征生成区域特征;将文本特征、区域特征连接后输入到Transformer编码器中生成可学习token;将文本特征和网格特征通过缩放点积注意力操作得到多模态特征;根据多模态特征和可学习token进行目标分割掩码的预测处理,得到预测掩码并将其作为输入数据的视觉定位结果。本发明方法解决了网格特征缺乏对象级信息的问题,增强了特征表示,有效提升了在复杂查询或复杂图片场景下的分割性能。利用混合操作融合全局和局部特征,丰富了多模态特征,有效地实现语义对齐。

Patent Agency Ranking