基于学习率路径切换的大语言模型版本迭代方法及装置

    公开(公告)号:CN119539115A

    公开(公告)日:2025-02-28

    申请号:CN202411342985.6

    申请日:2024-09-25

    Applicant: 厦门大学

    Abstract: 本发明提出了一种基于学习率路径切换的大语言模型版本迭代方法及装置,该方法包括获取当前版本的大语言模型;根据新的数据集和当前版本的大语言模型对应的学习率主路径的检查点对当前版本的大语言模型进行继续预训练,以得到迭代好的下一版本的大语言模型,其中,在进行继续预训练时学习率路径从主路径切换到分支路径上,以采用快速衰减的学习率对当前版本的大语言模型进行继续预训练;根据新的数据集和当前版本的大语言模型对应的主路径检查点继续在主路径上以预设的最大学习率预训练当前版本的大语言模型,以得到迭代好的下一版本的大语言模型对应的检查点;从而在保持大语言模型版本迭代高性能的同时还降低了版本迭代的总预训练成本。

Patent Agency Ranking