一种针对语言模型的知识蒸馏方法及相关设备

    公开(公告)号:CN118132763A

    公开(公告)日:2024-06-04

    申请号:CN202410321142.1

    申请日:2024-03-20

    Abstract: 本发明提供了一种针对语言模型的知识蒸馏方法及相关设备,方法包括:根据第一语言模型构建初始的第二语言模型;以学习第一语言模型的语言建模能力为目标,采用通用领域的无标注语料对构建的第二语言模型进行训练;以学习第一语言模型的指令遵循能力为目标,采用通用领域的有标注语料对无监督训练后第二语言模型进行训练;以学习第一语言模型对齐人类价值观的能力为目标,采用通用领域的有标注语料对有监督训练后第二语言模型进行训练,得到最终的第二语言模型。本发明通过对第一语言模型进行分步知识蒸馏,可获得具备第一语言模型所具备能力的第二语言模型,这样的第二语言模型易在真实场景中部署应用,能够解决多种任务,应用范围较广。

Patent Agency Ranking