一种基于算子融合和多流并发的推荐系统加速方法

    公开(公告)号:CN118363757A

    公开(公告)日:2024-07-19

    申请号:CN202410509874.3

    申请日:2024-04-26

    Applicant: 南开大学

    Abstract: 本发明公开了一种基于算子融合和多流并发的推荐系统加速方法,包括以下内容:针对推荐模型中共有的Embedding模块进行优化,通过多表并行查找算法,并将原本所有的Embedding查表操作实现为一个轻量级的融合算子;针对Neural Network模块,通过non‑GEMM算子融合算法,减少算子启动开销,并在算子级别对并行模块的并行计算进行细粒度控制;针对“双塔式”推荐模型的结构特征,为“双塔式”推荐模型的并行结构分别创建一个独立的计算流,每个计算流负责并行结构中一个分支的计算任务。其分别针对推荐模型的Embedding部分和Neural Network部分进行细致优化,减少算子启动开销,并在算子级别对并行模块的并行计算进行细粒度控制。

    一种多模态推理与迭代优化视频描述生成模型及方法

    公开(公告)号:CN116052048A

    公开(公告)日:2023-05-02

    申请号:CN202310043321.9

    申请日:2023-01-29

    Applicant: 南开大学

    Abstract: 本发明提供了一种多模态推理与迭代优化视频描述生成方法,包括以下步骤:根据采样后的视频帧得到目标特征、外观特征和运动特征;三个特征和上下文引导特征G计算得到三种单词的推理特征;选择其中一个作为基础解码器的一项输入内容;基础解码器输出的隐藏状态作为迭代器的一项输入内容;计算描述单词的概率分布;生成描述语句。以及视频描述生成模型,包括编码器部分和解码器部分,所述解码器部分包括依次连接的基础解码器和迭代器,基础解码器和迭代器由LSTM网络构成。本发明的完全动态的上下文引导特征与迭代器确实极大地提升了描述语句的质量,模型能够为视频数据生成更加准确、更加细致、更加全面且更具表达力的描述语句。

    一种低位宽量化压缩的LSTM加速器
    3.
    发明公开

    公开(公告)号:CN115730648A

    公开(公告)日:2023-03-03

    申请号:CN202211473669.3

    申请日:2022-11-22

    Applicant: 南开大学

    Abstract: 本发明提供了一种低位宽量化压缩的LSTM加速器,包括存储模块、矩阵向量乘计算模块、激活函数模块和点乘操作模块,所述存储模块分别与所述矩阵向量乘计算模块、激活函数模块、点乘操作模块连接,所述矩阵向量乘计算模块、激活函数模块、点乘操作模块依次连接;所述矩阵向量乘计算模块用于进行权值矩阵与输入数据或前一个时刻的输出值的矩阵向量乘计算,再加上偏置向量;权值矩阵、输入数据和前一个时刻的输出值由32位浮点数量化为8位整数,在所述矩阵向量乘计算模块进行计算,所述矩阵向量乘计算模块的计算结果反量化为32位浮点数。本发明在保证模型精度低损的前提下,降低了功耗,大幅度减少了推理延迟时间。

Patent Agency Ranking