-
公开(公告)号:CN116259075A
公开(公告)日:2023-06-13
申请号:CN202310081570.7
申请日:2023-01-16
Applicant: 安徽大学
IPC: G06V40/10 , G06V10/82 , G06V10/764 , G06N3/04 , G06N3/08 , G06V10/80 , G06V10/40 , G06N3/0464 , G06N3/0499
Abstract: 一种基于提示微调预训练大模型的行人属性识别方法,属于计算机视觉技术领域,解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。本发明采用CLIP的视觉和文本编码器提取图像特征和属性特征,通过多模态Transformer模块对两个模态特征融合后,经过前馈网络得到预测结果,通过将行人属性识别问题建模为视觉语言融合问题,使用预训练的视觉语言大模型作为主干网络,提取模态间联系更好的视觉和文本特征,再通过多模态的Transformer建模视觉和文本之间的联系,充分利用了属性语义信息,并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力,模型实用性更强。