-
公开(公告)号:CN115545187A
公开(公告)日:2022-12-30
申请号:CN202211294121.2
申请日:2022-10-21
Applicant: 复旦大学
Abstract: 本发明公开了一种基于FPGA的硬件感知可微分BERT层头剪枝方法。其包括以下步骤:引入可微分NAS的思路,为预训练好的BERT模型的每一个编码层,每一个注意力头,每一个前馈神经网络FFN维度均设置一个架构参数;对单层BERT模型进行仿真,得到四个模块的时延和功耗结果;计算单维子模块对应的时延Ls分数和功耗Ps分数;计算完整模型的Lf分数和Pf分数;训练更新模型的权重参数和,最小化完整的loss;模型训练收敛后,对于小于阈值的,将其对应的模型结构剪枝掉。本发明可在没有精度损失的情况下,将BERT‑base模型参数量压缩1.8倍,同时在FPGA上的推理时延缩小2.1倍,功耗降低1.9倍。