一种带噪多模态开放词汇视觉样本分类方法及系统

    公开(公告)号:CN118656507A

    公开(公告)日:2024-09-17

    申请号:CN202410813965.6

    申请日:2024-06-24

    Abstract: 本发明提供带噪多模态开放词汇视觉样本分类方法及系统,包括:将视觉样本编码为信息特征;将带噪文本信息编码为信息特征;根据视觉特征与带噪文本特征对视觉样本进行分类;基于预设词库,提出带噪文本的候选文本;根据候选文本与带噪文本的相似度计算单模态权重;根据候选文本特征与带噪文本对应视觉样本信息特征的相似度计算跨模态权重,获得最终权重;根据最终权重选出最优候选文本,并作为新的带噪文本,反复迭代直至收敛。本发明能够增强多模态视觉样本分类方法在噪声环境下的鲁棒性:通过单模态和跨模态信息优势互补,准确地筛选出候选去噪文本;通过反复迭代,优化去噪文本筛选的准确性,实现更精确的带噪多模态开放词汇视觉样本分类。

Patent Agency Ranking