一种基于深度交互适配网络模型的通用多模态学习方法

    公开(公告)号:CN116882477A

    公开(公告)日:2023-10-13

    申请号:CN202310847953.0

    申请日:2023-07-11

    Inventor: 余宙 王眺 俞俊

    Abstract: 本发明公开了一种基于深度交互适配网络模型的通用多模态学习方法。本发明步骤:1、获取图像单模态以及文本单模态的预训练模型,在两个预训练模型之间增设多模态适配器模块,2、分别加载图像和文本单模态模型的预训练权重参数并保持其不变,在多模态下游任务上微调训练所设计的适配器的权重参数,3、利用所微调的多模态适配器模型在多模态下游任务上进行推理部署。本发明通过为图像和文本两个单模态的预训练模型构建外部适配器网络,提取两个单模态模型的分层次特征,使用所构建的适配器进行多模态细粒度对齐融合,使单模态预训练模型可以迅速适用于多种多模态任务,并获得可与大规模多模态预训练模型相比的性能。

Patent Agency Ranking