-
公开(公告)号:CN119476418A
公开(公告)日:2025-02-18
申请号:CN202411518905.8
申请日:2024-10-29
Applicant: 中国科学院自动化研究所
IPC: G06N3/0985 , G06F17/16 , G06F18/214 , G06N3/006 , G06N7/01
Abstract: 本发明提供一种大语言模型合并方法、装置、电子设备及存储介质,包括:基于合并模型在下游任务的任务目标,确定模型合并所使用的密度超参数和模型合并系数超参数;基于密度超参数生成掩码矩阵,基于掩码矩阵、两个待合并模型各自的模型参数以及基础模型的模型参数,分别确定两个待合并模型的任务向量;基于两个待合并模型之间对应神经元的参数向量角、两个待合并模型的任务向量以及模型合并系数超参数,确定合并模型的任务向量;基于合并模型的任务向量和基础模型的模型参数,得到合并模型。采用上述技术方案,解决了现有的模型合并方法得到的合并模型的性能不佳的问题。