一种用于ViTs的逐图像块后训练量化方法及系统

    公开(公告)号:CN119445127A

    公开(公告)日:2025-02-14

    申请号:CN202510033307.X

    申请日:2025-01-09

    Applicant: 南开大学

    Abstract: 本发明涉及人工智能技术领域,具体公开了一种用于ViTs的逐图像块后训练量化方法及系统,方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器;将预训练模型中的全部模块替换为对应的量化模块,得到待量化的ViT模型,所述量化模块中包括激活值和权重的量化器,所述激活值采用逐图像块均匀量化器;利用所述校准数据,计算得到各量化器的缩放因子和零点偏移的初始值;利用校准数据和预训练模型,对缩放因子进行迭代优化,得到量化后的ViT模型。本发明允许每个图像块享有独立的量化参数,极大提升了量化分辨率并且使量化的激活值具有更强的表征能力。

    一种基于算子融合和多流并发的推荐系统加速方法

    公开(公告)号:CN118363757A

    公开(公告)日:2024-07-19

    申请号:CN202410509874.3

    申请日:2024-04-26

    Applicant: 南开大学

    Abstract: 本发明公开了一种基于算子融合和多流并发的推荐系统加速方法,包括以下内容:针对推荐模型中共有的Embedding模块进行优化,通过多表并行查找算法,并将原本所有的Embedding查表操作实现为一个轻量级的融合算子;针对Neural Network模块,通过non‑GEMM算子融合算法,减少算子启动开销,并在算子级别对并行模块的并行计算进行细粒度控制;针对“双塔式”推荐模型的结构特征,为“双塔式”推荐模型的并行结构分别创建一个独立的计算流,每个计算流负责并行结构中一个分支的计算任务。其分别针对推荐模型的Embedding部分和Neural Network部分进行细致优化,减少算子启动开销,并在算子级别对并行模块的并行计算进行细粒度控制。

    一种用于ViTs的逐图像块后训练量化方法及系统

    公开(公告)号:CN119445127B

    公开(公告)日:2025-05-02

    申请号:CN202510033307.X

    申请日:2025-01-09

    Applicant: 南开大学

    Abstract: 本发明涉及人工智能技术领域,具体公开了一种用于ViTs的逐图像块后训练量化方法及系统,方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器;将预训练模型中的全部模块替换为对应的量化模块,得到待量化的ViTs模型,所述量化模块中包括激活值和权重的量化器,所述激活值采用逐图像块均匀量化器;利用所述校准数据,计算得到各量化器的缩放因子和零点偏移的初始值;利用校准数据和预训练模型,对缩放因子进行迭代优化,得到量化后的ViTs模型。本发明允许每个图像块享有独立的量化参数,极大提升了量化分辨率并且使量化的激活值具有更强的表征能力。

Patent Agency Ranking