-
公开(公告)号:CN120032307A
公开(公告)日:2025-05-23
申请号:CN202410736218.7
申请日:2024-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06V20/52 , G06V10/774 , G06V10/764 , G06V10/82 , G06V10/74 , G06N3/0455 , G06N3/09
Abstract: 本发明属于信息技术领域,涉及一种基于文本提示的语义引导的行人重识别方法和系统。该方法包括:将训练图像输入视觉编码器,得到视觉嵌入;利用逆向网络将视觉嵌入映射到文本空间,得到伪令牌,将伪令牌整合到自然语言句子中,得到对于输入图像的语言提示;将语言提示输入文本编码器中,得到文本嵌入;利用视觉嵌入和文本嵌入训练多模态交互模块;将查询图片输入训练完成的多模态交互模块,获得融合视觉与文本信息的特征向量,利用融合视觉与文本信息的特征向量在行人图像数据库中执行相似度检索,得到行人重识别结果。本发明在现有行人重识别数据集上的检索性能得到了显著提升。