一种基于小样本快速稀疏化大型语言模型的二阶段稀疏方法

    公开(公告)号:CN119623534A

    公开(公告)日:2025-03-14

    申请号:CN202411694015.2

    申请日:2024-11-25

    Applicant: 厦门大学

    Inventor: 纪荣嵘 杨潇 晁飞

    Abstract: 本发明公开了一种基于小样本快速稀疏化大型语言模型的二阶段稀疏方法,包括以下步骤:S1、掩码初始化:基于多种用于度量参数的重要性指标,采用多种掩码初始化方法初始化语言模型的掩码;S2、掩码重排序:基于小样本校准集和直通估计器,对掩码进行重排序;S3、掩码调节:基于步骤S2的小样本校准集和重排序掩码矩阵,以原始模型作为教师模型,将稀疏模型作为学生模型,实现稀疏化前后大型语言模型在时间维度上的块级自蒸馏过程,得到稀疏模型;该方法在实现相当性能的同时,消耗更少的计算能力、使用更小的数据集、占用更少的GPU内存,并且不影响稀疏模型的推理速度,具有显著的实用价值和应用前景。

Patent Agency Ranking