-
公开(公告)号:CN119047527A
公开(公告)日:2024-11-29
申请号:CN202411075896.X
申请日:2024-08-07
Applicant: 东南大学
Abstract: 本发明公开一种基于混合量化精度键值缓存的自注意力机制计算结构,属于计算、推算或计数的技术领域。该计算结构包括:自注意力机制计算模块、输入数据量化模块、混合量化精度的键值缓存模块、n‑m反量化操作模块以及计算差‑加载差匹配模块,在键值缓存中键矩阵采用n量化精度存储,值矩阵采用m量化精度存储。利用键矩阵和值矩阵之间由于Softmax和n‑m反量化操作模块产生的计算周期差,通过计算差‑加载差匹配模块,不断微调匹配键矩阵和值矩阵之间的计算周期差和加载周期差,在n‑m量化精度方案集合中选择最匹配的混合量化精度方案,实现了自注意力机制计算精度和模型压缩的动态调节,具有功耗低,能效高,延时低的技术优势。