-
公开(公告)号:CN117788878A
公开(公告)日:2024-03-29
申请号:CN202311606846.5
申请日:2023-11-28
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/86 , G06V10/80 , G06V30/19 , G06V10/74
Abstract: 本发明涉及一种多模态模型的训练及图像分类方法和装置,将各目标图像分别对应的可学习的提示词向量,经过多个适配器投影,得到丰富语义的多个文本支持特征向量,丰富了单一文本特征向量的语义表达,更具泛化性与鲁棒性。并基于多个文本特征向量,得到各类别的分类超平面,从而实现图像与文本之间的点对面映射,从而可以使基于各类别的分类超平面进一步确定的损失函数,训练得到最终的提示词向量和多个适配器,使基于训练好的提示词向量进行图像分类时,提高多模态模型的泛化能力,分类准确率更高。基于分类超平面之间的平面夹角确定损失函数,更充分使用特征空间,从而使不同的分类超平面之间的关系更加具有判别性,分类准确率更高。