一种图像文本匹配方法、设备及可读存储介质

    公开(公告)号:CN115761277A

    公开(公告)日:2023-03-07

    申请号:CN202211391879.8

    申请日:2022-11-08

    Abstract: 本发明公开了一种图像文本匹配方法、设备及可读存储介质,方法包括步骤:构建图像数据集和对应的文本库;提取每张图像的n个区域特征矩阵;构建词典并得到词向量;对每个单词添加词性特征得到词性向量;将词向量与词性向量进行融合得到单词特征向量;采用交叉注意力机制对单词特征向量与图像区域特征矩阵进行跨模态融合;计算得到相似度值;根据损失函数判断相似度计算的准确性,依次完成图像文本匹配的训练、验证和测试。本发明通过交叉注意力机制对单词特征向量与图像区域特征矩阵进行跨模态融合,计算文本特征和图像特征的相似性,提高了相似性计算精度,从而提高图文匹配结果的准确性。

Patent Agency Ranking