-
公开(公告)号:CN114942984A
公开(公告)日:2022-08-26
申请号:CN202210590151.1
申请日:2022-05-26
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/332 , G06F16/38 , G06F16/532 , G06F16/58 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/42 , G06V10/80 , G06V10/82
Abstract: 本公开提供了一种视觉场景文本融合模型的预训练和图文检索方法及装置,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域。具体实现方案为:获取样本图文对;提取样本图像中的样本场景文本;将样本文本输入文本编码网络,得到样本文本特征;将样本图像和初始的样本融合特征输入视觉编码子网络,以及将初始的样本融合特征和样本场景文本输入场景编码子网络,得到样本图像的全局图像特征和经学习的样本融合特征;根据样本文本特征、样本图像的全局图像特征和经学习的样本融合特征,对视觉场景文本融合模型进行预训练。通过上述技术方案,能够提高图文跨模态检索性能。
-