-
公开(公告)号:CN119761429A
公开(公告)日:2025-04-04
申请号:CN202411911735.X
申请日:2024-12-24
Applicant: 上海交通大学
IPC: G06N3/0495 , G06N3/084 , G06N3/063
Abstract: 一种基于离群值分离激活值混合量化的神经网络优化方法,采用Z‑Score方式将预处理后的激活值分解为离群值和正常值后,分别对正常值使用采用4bit分组量化、对于离群值采用8bit量化并保存到显存中,在反向传播计算到该层时对保存的量化后离群值和正常值进行恢复处理实现优化。本发明能够减小前向传播后保存在显存中的激活值大小,保证模型可以训练的同时,显著减小所有层前向传播之后保存的总激活值大小,相比其他技术,能够提供更高吞吐率,并且能够尽可能减小量化误差。