多模态模型的训练及图像分类方法和装置

    公开(公告)号:CN117788878A

    公开(公告)日:2024-03-29

    申请号:CN202311606846.5

    申请日:2023-11-28

    Abstract: 本发明涉及一种多模态模型的训练及图像分类方法和装置,将各目标图像分别对应的可学习的提示词向量,经过多个适配器投影,得到丰富语义的多个文本支持特征向量,丰富了单一文本特征向量的语义表达,更具泛化性与鲁棒性。并基于多个文本特征向量,得到各类别的分类超平面,从而实现图像与文本之间的点对面映射,从而可以使基于各类别的分类超平面进一步确定的损失函数,训练得到最终的提示词向量和多个适配器,使基于训练好的提示词向量进行图像分类时,提高多模态模型的泛化能力,分类准确率更高。基于分类超平面之间的平面夹角确定损失函数,更充分使用特征空间,从而使不同的分类超平面之间的关系更加具有判别性,分类准确率更高。

Patent Agency Ranking