-
公开(公告)号:CN119441512A
公开(公告)日:2025-02-14
申请号:CN202411349890.7
申请日:2024-09-26
Applicant: 南京大学
IPC: G06F16/383 , G06F16/583 , G06N3/0464 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开了一种基于对比学习和模态融合的图文检索方法,包括如下步骤:给定原始图像‑文本对;第一步,基于目标检测模型和深度残差网络对输入图像分别进行局部编码和全局编码,并基于预训练语言模型对输入文本进行编码;第二步,采用多样化的数据增广策略生成更多相匹配的图像‑文本对(正样本对)和不匹配的图像‑文本对(负样本对);第三步,建立图像和文本的跨模态层次化语义融合,弥合视觉模态和语言模态之间的语义鸿沟;第四步,衡量图像和文本之间的语义相似程度;第五步,基于数据增广生成的正负样本对,通过对比学习进行模型训练。本发明解决了现有的图文检索方法对模态间细粒度差异不敏感的问题。