一种基于图像嵌入和数据增强的图像与文本混合检索方法及系统

    公开(公告)号:CN118152518A

    公开(公告)日:2024-06-07

    申请号:CN202410301796.8

    申请日:2024-03-16

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于图像嵌入和数据增强的图像与文本混合检索方法及系统,该方法包括图像特征提取与图像标题向量化、图像特征嵌入词向量空间、图像特征数据增强、文档向量化、多模态数据的文本特征提取、模型训练以及排序步骤,针对多模态模型存在的模态偏好问题,设计了图像嵌入方法,将图像、图像标题、文档、查询信息都统一到文本模态,避免了图像特征与文本特征的模态鸿沟问题与使用跨模态编码器而造成的模态偏好问题,在基本不损失图像文档检索精确率的前提下,大幅提高了文本文档检索的精确率;并通过批内负样本数据增强,提高了文本编码模块对图像的词向量表征信息的利用效率,进一步提升多模态检索模型的性能。

Patent Agency Ranking