-
公开(公告)号:CN118038139A
公开(公告)日:2024-05-14
申请号:CN202410129619.6
申请日:2024-01-30
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于大模型微调的多模态小样本图像分类方法,包括:图像文本对的预处理;多模态特征的提取;构建基于CLIP大模型微调的多模态小样本分类模型;类别预测:将测试图像输入到完成训练的分类模型的图像编码器后,得到图像特征,利用余弦分类器,对图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算,相似度最高的多模态特征所述的类别,即为测试图像的预测类别。本发明在视觉‑语言大模型的基础之上,迁移大模型中丰富的多模态信息到特定的图像分类任务上,既通过大模型蕴含的丰富知识来补充数据不足的问题,又充分挖掘图像数据的信息,以实现更加高效的小样本图像分类方法。