一种生成式模型的训练方法及装置

    公开(公告)号:CN118349849A

    公开(公告)日:2024-07-16

    申请号:CN202410397247.5

    申请日:2024-04-02

    摘要: 申请实施例公开了一种生成式模型的训练方法及装置,涉及人工智能技术领域。主要技术方案包括:获取包括多个第一训练语料和第二训练语料的训练数据;基于所述第一训练语料,进行从第一语言模型到第二语言模型的知识蒸馏,所述第一语言模型为大语言模型;基于所述第二训练语料,进行从所述知识蒸馏得到的第二语言模型到第三语言模型的知识蒸馏,所述第三语言模型为生成式模型;其中,所述第一语言模型、第二语言模型和第三语言模型的规模依次递减。本申请能够在保留大语言模型能力的同时,减小生成式模型的参数规模,从而降低对计算资源的消耗,提高响应速度。