-
公开(公告)号:CN115019085A
公开(公告)日:2022-09-06
申请号:CN202210544252.5
申请日:2022-05-18
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明提出一种基于自动梯度混合的神经网络模型知识蒸馏方法和系统,包括通过损失函数,将教师网络的知识蒸馏至学生网络,得到任务损失和蒸馏损失;对该任务损失和该蒸馏损失进行反向传播,得到任务梯度向量和蒸馏梯度向量,以及任务梯度向量和蒸馏梯度向量间的夹角;以任务梯度向量约束总梯度向量,选择效果最优的候选偏转系数作为最终偏转系数以计算权重系数,将该权重系数加到损失函数,得到最终损失函数,并以该最终损失函数将该教师网络的知识蒸馏至该学生网络。由此本发明可自动调节权重系数超参。
-
公开(公告)号:CN115019085B
公开(公告)日:2025-04-08
申请号:CN202210544252.5
申请日:2022-05-18
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/042 , G06N3/045 , G06N3/084
Abstract: 本发明提出一种基于自动梯度混合的神经网络模型知识蒸馏方法和系统,包括通过损失函数,将教师网络的知识蒸馏至学生网络,得到任务损失和蒸馏损失;对该任务损失和该蒸馏损失进行反向传播,得到任务梯度向量和蒸馏梯度向量,以及任务梯度向量和蒸馏梯度向量间的夹角;以任务梯度向量约束总梯度向量,选择效果最优的候选偏转系数作为最终偏转系数以计算权重系数,将该权重系数加到损失函数,得到最终损失函数,并以该最终损失函数将该教师网络的知识蒸馏至该学生网络。由此本发明可自动调节权重系数超参。
-