基于二阶信息的非结构化剪枝压缩的轻量化语音识别方法

    公开(公告)号:CN119207382A

    公开(公告)日:2024-12-27

    申请号:CN202411312981.3

    申请日:2024-09-19

    Inventor: 钱彦旻 顾天腾

    Abstract: 本发明公开了一种基于二阶信息的非结构化剪枝压缩的轻量化语音识别方法,该方法包括如下步骤:对目标语音识别模型每一层不同组成部分进行基于Hessian矩阵给的敏感分析,用于进行混合稀疏度剪枝压缩搜索;根据上述求得的稀疏度从浅至深逐层对模型进行搜索,根据输入数据和模型参数的值计算出每个参数对于模型性能贡献,裁剪掉贡献交底的参数并对剩余参数进行更新;采用循环剪枝产生最终的剪枝压缩模型,剪枝到一个低于目标稀疏度的较低稀疏度,然后对模型进行微调,以此将模型参数修正到最优性能。本发明能够在不牺牲性能的前提下,高效地从预训练的大型语音模型中移除不重要参数,减少了模型的计算和存储需求,在高稀疏条件下具备良好性能。

    一种语音模型压缩方法、电子设备及存储介质

    公开(公告)号:CN119905087A

    公开(公告)日:2025-04-29

    申请号:CN202510083506.1

    申请日:2025-01-17

    Inventor: 钱彦旻 顾天腾

    Abstract: 本发明公开了一种语音模型压缩方法、电子设备及存储介质。本发明专为具有编码器‑解码器架构的大规模序列到序列语音识别模型设计。该方法通过依次剪枝解码器和编码器,避免了繁重的反向传播计算。该方法能在无反向传播或重训练的情况下,将Whisper‑large模型的参数减少约60%,且对模型在各种数据集上的表现几乎没有影响。同时,该方法适用于多语言数据集,剪枝后模型在多语言能力上保持了良好的鲁棒性和泛化性。此创新极大降低了大规模模型部署的门槛,使其在资源受限的环境中更易应用。

Patent Agency Ranking