-
公开(公告)号:CN117852593A
公开(公告)日:2024-04-09
申请号:CN202311737407.8
申请日:2023-12-18
Applicant: 中国科学院信息工程研究所
IPC: G06N3/0495 , G06N3/0455 , G06N3/096 , G06N3/084
Abstract: 本发明公开了一种蒸馏感知混合精度量化的压缩方法,其步骤包括:1)针对待压缩的神经网络模型中的每一个神经网络层,确定每个神经网络层的参数集合;2)根据每层神经网络的参数特点确定对应层神经网络的量化位数;3)按照预设的量化位数,计算并生成对应层神经网络的参数集合的量化值,得到量化后的神经网络模型;4)对量化后的神经网络模型进行多次迭代知识蒸馏,并计算每次迭代后的神经网络模型的准确率;选取知识蒸馏后准确率最高的神经网络模型作为最终量化压缩的神经网络模型。本发明成功地避免了由于极低精度量化而可能导致的性能损失,为神经网络模型压缩领域带来了新的突破。