用于共享和剪枝视觉和语言模型的权重的装置和方法
Abstract:
一种通过使用包括文本编码器和视觉编码器的多模态模型来执行多模态任务的方法可以包括经由文本编码器从查询中获得文本特征,经由视觉编码器从一个或多个输入图像中获得图像特征,以及基于文本特征和图像特征之间的相似性输出对查询的响应,其中根据由超网络生成的共享向量和剪枝向量来剪枝和共享文本编码器和视觉编码器的权重向量,并且其中超网络和多模态模型被联合训练,以最小化文本编码器和视觉编码器中权重向量之间的差异、文本编码器的不同层中权重向量之间的差异和多模态模型中的参数数量中的至少一个。
Patent Agency Ranking
0/0