大语言模型合并方法、装置、电子设备及存储介质

    公开(公告)号:CN119476418A

    公开(公告)日:2025-02-18

    申请号:CN202411518905.8

    申请日:2024-10-29

    Abstract: 本发明提供一种大语言模型合并方法、装置、电子设备及存储介质,包括:基于合并模型在下游任务的任务目标,确定模型合并所使用的密度超参数和模型合并系数超参数;基于密度超参数生成掩码矩阵,基于掩码矩阵、两个待合并模型各自的模型参数以及基础模型的模型参数,分别确定两个待合并模型的任务向量;基于两个待合并模型之间对应神经元的参数向量角、两个待合并模型的任务向量以及模型合并系数超参数,确定合并模型的任务向量;基于合并模型的任务向量和基础模型的模型参数,得到合并模型。采用上述技术方案,解决了现有的模型合并方法得到的合并模型的性能不佳的问题。

Patent Agency Ranking