一种面向大语言模型的多模态迁移学习方法

    公开(公告)号:CN118863010A

    公开(公告)日:2024-10-29

    申请号:CN202410982010.3

    申请日:2024-07-22

    Applicant: 厦门大学

    Abstract: 本发明提供一种面向大语言模型的多模态迁移学习方法,利用冻结的图像编码器提取多尺度的图像特征,与一个可学习的模态指示表征和所有的文本特征拼接输入大语言模型进行建模,在图像编码器和大语言模型的自注意力层后都设置轻量级的Adapter模块,迁移学习时仅需更新这些模块的参数即可;在图文问题上,本发明还利用交叉注意力机制在输入特征中生成能够衔接图像与文本的融合提示,更好地指导大语言模型生成更为准确的回答;同时,基于∈‑贪心算法事先搜索到融合提示在大语言模型中的最佳放置层K。本发明方法可实现以低成本、高效率的将大语言模型的通用知识快速迁移至特定多模态任务中,实现单模态和多模态文本指令之间的自动切换。

    一种面向视觉-语言任务的预训练语言模型适配方法

    公开(公告)号:CN117037176A

    公开(公告)日:2023-11-10

    申请号:CN202310971499.X

    申请日:2023-08-03

    Applicant: 厦门大学

    Abstract: 一种面向视觉‑语言任务的预训练语言模型适配方法,涉及多模态处理技术。用于根据视觉‑语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。步骤:1)基于视觉特征和文本特征,使用跨模态注意力层来提取轻量级的动态视觉提示,进而减少输入序列过长带来的计算开销。2)使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置,提升预训练语言模型在视觉‑语言任务的适配性能。3)在预训练语言模型中加入Adapter模块,大幅度降低训练参数量,实现语言任务向视觉‑语言任务的快速过渡。

Patent Agency Ranking