基于图片映射器和文本自遮掩映射器的组合图像检索方法

    公开(公告)号:CN119441514A

    公开(公告)日:2025-02-14

    申请号:CN202411438579.X

    申请日:2024-10-15

    Abstract: 基于图片映射器和文本自遮掩映射器的组合图像检索方法,包括:先对输入的图片进行缩放加噪等操作,然后输入到冻结的预训练图像编码器中,得到图像特征#imgabs0#利用图像映射器将图像特征#imgabs1#转化成伪词标记s1,利用文本自遮掩映射器将图像特征#imgabs2#转化成伪词标记s2,分别将其替换预先提供的提示文本中的标记符号,并将输入的修改文本拼接到提示文本之后,得到两个新的文本x1,x2。将文本x1,x2分别输入到冻结的预训练文本编码器中,得到两个特征,将两个特征进行均值融合,最后将得到的均值特征与目标图像进行对比。本发明既解决了使用昂贵三元组训练组合图像检索模型的缺点,也提高了模型对组合图像检索下游任务的泛化能力。

Patent Agency Ranking