-
公开(公告)号:CN117540818A
公开(公告)日:2024-02-09
申请号:CN202311209456.4
申请日:2023-09-19
Applicant: 厦门大学
Abstract: 一种动量模仿学习的视觉语言预训练模型优化方法,涉及高效参数迁移学习。1)计算权重模拟学习的损失函数:2)动量更新模型的权重:3)计算混合近似函数:(1)ft(X)=X+(XAd+ad)Bd+bd,(2)fb(X)=XW0+XAbBd,(3)fh(X)=fb(ft(X));4)重参数化近似函数。通过模仿原模型权重学习过程和优化低秩适配器的近似误差,实现对视觉语言预训练模型的高效优化。
-
公开(公告)号:CN117194989A
公开(公告)日:2023-12-08
申请号:CN202311290661.8
申请日:2023-10-08
Applicant: 厦门大学
IPC: G06F18/214 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 一种提高大型语言模型适配多模态任务效率的方法,属于高效视觉语言指令调优领域。1)引入模态标记指示输入模态;2)定义混合模态适配器;3)基于混合模态适配器进行混合模态训练,利用ScienceQA执行多模态科学问答任务,利用Alphaca‑52k和LLaVA‑158k两个数据集执行多模态对话任务;4)将视觉特征转化为与大型语言模型输入特征的相同维度;5)定义大型语言模型的输入;6)大型语言模型预测下一个词。减少将多模态能力拓展到大型语言模型所需的训练时间和参数量且获得与之前该领域最好方法相当的精度,该大型视觉语言指令模型具有成为通用聊天机器人的巨大潜能。
-
公开(公告)号:CN119832356A
公开(公告)日:2025-04-15
申请号:CN202411826002.6
申请日:2024-12-12
Applicant: 厦门大学
IPC: G06V10/774 , G06V10/771 , G06V10/74 , G06V10/82 , G06N3/0442 , G06N3/0455 , G06N3/084 , G06N3/0895
Abstract: 本发明公开一种可学习向量特征进行对比学习的单阶段弱监督目标定位方法、电子设备和存储介质,提升弱监督视觉定位任务的性能。方法包括:通过Transformer解码器得到可学习向量特征;选取#imgabs0#个具有最高置信度分数的可学习向量特征作为候选特征;将候选特征与文本特征映射到相同的语义空间;对可学习向量特征进行质量估计,得到负样本的质量分数;从每个图文对中选取#imgabs1#个可学习向量特征进行迭代可学习向量特征的选择;从匹配图文对中选取相似度分数最高的可学习向量特征作为正样本,从不匹配图文对中选取若干个可学习向量特征作为负样本,优化目标是最大化输入文本与正样本可学习向量特征的相似度、最小化输入文本与负样本可学习向量特征的相似度。
-
-