-
公开(公告)号:CN119445127A
公开(公告)日:2025-02-14
申请号:CN202510033307.X
申请日:2025-01-09
Applicant: 南开大学
IPC: G06V10/28 , G06N3/0455 , G06N3/084 , G06V10/82
Abstract: 本发明涉及人工智能技术领域,具体公开了一种用于ViTs的逐图像块后训练量化方法及系统,方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器;将预训练模型中的全部模块替换为对应的量化模块,得到待量化的ViT模型,所述量化模块中包括激活值和权重的量化器,所述激活值采用逐图像块均匀量化器;利用所述校准数据,计算得到各量化器的缩放因子和零点偏移的初始值;利用校准数据和预训练模型,对缩放因子进行迭代优化,得到量化后的ViT模型。本发明允许每个图像块享有独立的量化参数,极大提升了量化分辨率并且使量化的激活值具有更强的表征能力。
-
公开(公告)号:CN118363757A
公开(公告)日:2024-07-19
申请号:CN202410509874.3
申请日:2024-04-26
Applicant: 南开大学
IPC: G06F9/50 , G06F16/9535 , G06N3/098
Abstract: 本发明公开了一种基于算子融合和多流并发的推荐系统加速方法,包括以下内容:针对推荐模型中共有的Embedding模块进行优化,通过多表并行查找算法,并将原本所有的Embedding查表操作实现为一个轻量级的融合算子;针对Neural Network模块,通过non‑GEMM算子融合算法,减少算子启动开销,并在算子级别对并行模块的并行计算进行细粒度控制;针对“双塔式”推荐模型的结构特征,为“双塔式”推荐模型的并行结构分别创建一个独立的计算流,每个计算流负责并行结构中一个分支的计算任务。其分别针对推荐模型的Embedding部分和Neural Network部分进行细致优化,减少算子启动开销,并在算子级别对并行模块的并行计算进行细粒度控制。
-
公开(公告)号:CN119445127B
公开(公告)日:2025-05-02
申请号:CN202510033307.X
申请日:2025-01-09
Applicant: 南开大学
IPC: G06V10/28 , G06N3/0455 , G06N3/084 , G06V10/82
Abstract: 本发明涉及人工智能技术领域,具体公开了一种用于ViTs的逐图像块后训练量化方法及系统,方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器;将预训练模型中的全部模块替换为对应的量化模块,得到待量化的ViTs模型,所述量化模块中包括激活值和权重的量化器,所述激活值采用逐图像块均匀量化器;利用所述校准数据,计算得到各量化器的缩放因子和零点偏移的初始值;利用校准数据和预训练模型,对缩放因子进行迭代优化,得到量化后的ViTs模型。本发明允许每个图像块享有独立的量化参数,极大提升了量化分辨率并且使量化的激活值具有更强的表征能力。
-
-