Transformer编译器中的非线性函数量化方法

    公开(公告)号:CN116126337A

    公开(公告)日:2023-05-16

    申请号:CN202211599032.9

    申请日:2022-12-12

    Applicant: 复旦大学

    Inventor: 周昊 王堃

    Abstract: 本发明公开了一种Transformer编译器中的非线性函数量化方法。本发明采用量化的方法对transformer的及其衍生模型进行量化压缩,通过量化感知训练(QAT)的方法得到量化权重和量化参数。在量化过程中,使用分段线性近似的方法计算非线性函数。在分段边界的确定上,同样采用QAT的方法,将非线性函数的线性近似函数表示为可微分的函数,使其参与到QAT的反向传播中,从而得到最优的分段边界组合。本发明可以应用在BERT模型的多平台部署上,尤其适用于FPGA这种适用于规则计算的部署平台。在量化过程中使用本发明的方法,可以提高硬件效率并最大程度保留精度。

    一种基于FPGA的Transformer硬件加速器

    公开(公告)号:CN115545177A

    公开(公告)日:2022-12-30

    申请号:CN202211135583.X

    申请日:2022-09-19

    Applicant: 复旦大学

    Inventor: 周昊 王堃

    Abstract: 本发明公开了一种基于FPGA的Transformer硬件加速器;其包括数据预处理模块、计算单元和控制器;计算单元包括矩阵处理单元和非线性处理单元;非线性处理单元包括激活函数单元、层标准化模块和Softmax模块;数据预处理模块部署在CPU上,控制器和计算单元部署在FPGA上,数据预处理模块对需要处理的文本进行预处理,转化为整数序列输入到FPGA中,数据在计算单元中经过控制器的调度完成计算过程,最终得到输出结果。本发明在计算时只需要使用更少的逻辑资源,就可以在更短的时间内得到结果,同时不影响最终的计算精度。

    基于FPGA的图卷积神经网络模型的压缩方法和系统

    公开(公告)号:CN115392439A

    公开(公告)日:2022-11-25

    申请号:CN202211135352.9

    申请日:2022-09-19

    Applicant: 复旦大学

    Inventor: 叶景格 王堃

    Abstract: 本发明属于人工智能数据处理技术领域,具体为一种基于FPGA的图卷积神经网络模型的压缩方法和系统;在本发明的FPGA的现场可编程门阵列系统芯片的图卷积神经网络模型的压缩系统中,输入模块主要用于输入邻接矩阵A和参数矩阵W,邻接矩阵计算模块主要用于邻接矩阵A和参数矩阵W的计算,组合模块主要用于将图卷积神经网络模型中的某一层特征矩阵Xn与参数矩阵W进行组合,聚合模块主要用于将图卷积神经网络模型中的Xn+1层与Xn+2层进行合并,合并得到新的Xn+2层,输出模块主要用于输出压缩后的图卷积神经网络模型。本发明的基于FPGA的图卷积神经网络模型的压缩方法和系统在保证处理结果精确的同时能降低运算速率。

    基于FPGA的图卷积神经网络稀疏矩阵乘法分配系统

    公开(公告)号:CN115390788A

    公开(公告)日:2022-11-25

    申请号:CN202211135363.7

    申请日:2022-09-19

    Applicant: 复旦大学

    Inventor: 叶景格 王堃

    Abstract: 本发明属于CPU数据处理技术领域,具体为一种基于FPGA的图卷积神经网络稀疏矩阵乘法分配系统。本发明在CPU运算器内设置稀疏矩阵预处理模块,存储器内设有FPGA模块;将输入的CSC格式的稀疏矩阵发送至存储器中,CSC格式文件将稀疏矩阵压缩为三个数组:行索引记录数组、列索引记录数组以及非零值数组,稀疏矩阵预处理模块通过从存储器中调取数据流,并对该稀疏矩阵的行索引记录数组、列索引记录数组以及非零值数组进行运算,实现稀疏矩阵乘法分配。本发明中的基于FPGA的图卷积神经网络稀疏矩阵乘法分配系统CPU数据处理速率快。

    一种基于FPGA的面向DPU的令牌桶算法限流系统

    公开(公告)号:CN115665053B

    公开(公告)日:2025-04-29

    申请号:CN202211189936.4

    申请日:2022-09-28

    Applicant: 复旦大学

    Inventor: 李誉 王堃

    Abstract: 本发明公开了一种基于FPGA的面向DPU的令牌桶算法限流系统,该系统直接部署于FPGA上,且该系统通过PCI‑e接口与主机端的网卡实现连接;该系统包括系统配置模块、快速存储器访问模块、以太网介质访问控制器模块和两组用户逻辑框模块。本发明针对系统链路中流量突发的问题,根据令牌桶原理设计了流量控制方法,使得链路中的流量不会超过系统收发端的限制,并能够根据数据的类型提供不同的策略以满足用户要求,在保证系统安全运转的基础上,不浪费原有带宽,解决流量突发给DPU带来的不稳定因素;具备实现多路径、不同数据包的限流策略,而且部署上没有其他依赖的硬件、算法、协议资源和需求,可以直接在FPGA上使用的优点。

    一种BERT中层归一化非线性函数的FPGA加速方法

    公开(公告)号:CN115965062A

    公开(公告)日:2023-04-14

    申请号:CN202211135447.0

    申请日:2022-09-19

    Applicant: 复旦大学

    Inventor: 曹家林 王堃

    Abstract: 本发明公开了一种BERT中层归一化非线性函数的FPGA加速方法,包括以下步骤:通过量化公式得到非对称量化公式和对称量化公式;运用所述非对称量化公式和所述对称量化公式,基于量化方法对层归一化操作模块进行处理,得到将浮点数运算转化为整数运算以及移位操作的算法;将所述算法部署到FPGA上。该发明用量化方法对层归一化模块进行处理,并部署到FPGA上,在保证精度损失可接受的前提下,对层归一化模块进行压缩和加速,最终提高整个BERT模型的运行速度。

    基于图强化学习的FPGA高层次综合调度方法

    公开(公告)号:CN115936106A

    公开(公告)日:2023-04-07

    申请号:CN202211135401.9

    申请日:2022-09-19

    Applicant: 复旦大学

    Inventor: 周晰朗 王堃

    Abstract: 本发明公开了一种基于图强化学习的FPGA高层次综合调度方法;其包括以下步骤:获取初始化时间表;图神经网络接收非欧式空间的数据,提取非欧式空间的数据中的特征,将特征嵌入,得到结果信息,并将所述结果信息传递给强化学习的策略网络;策略网络根据所述结果信息和所述初始化时间表生成相应的调度动作,并与环境不断进行交互,完成调度过程;得到并输出操作对应的精确时钟周期。该发明具备提高实现调度质量和提升求解速度的优点。

    一种基于FPGA的图卷积神经网络的流水线结构

    公开(公告)号:CN115952845A

    公开(公告)日:2023-04-11

    申请号:CN202211577750.6

    申请日:2022-12-09

    Applicant: 复旦大学

    Inventor: 叶景格 王堃

    Abstract: 本发明公开了一种基于FPGA的图卷积神经网络的流水线结构。其用一个流水线形式的缓存来链接结合模块和聚合模块,同时每一层图卷积神经网络先进行结合模块的计算,然后将其结果送入中间的流水线中,再进入聚合模块。所述各个模块的输入和输出都是矩阵的形式,结合模块一列一列地依次输出,一次输出一列的数据进入流水线,再将这一列的数据进入聚合模块,以使得聚合模块直接计算矩阵和一列数据的乘法,也就是矩阵和向量的乘法。本发明的结构中结合模块以及聚合模块内部能够并行计算,并且这两个模块之间使用流水线的方式相连,能减少整个神经网络的推理过程的延迟。

    一种基于FPGA的图卷积神经网络的混合精度量化方法

    公开(公告)号:CN115906945A

    公开(公告)日:2023-04-04

    申请号:CN202211578073.X

    申请日:2022-12-09

    Applicant: 复旦大学

    Inventor: 叶景格 王堃

    Abstract: 本发明公开了一种基于FPGA的图卷积神经网络的混合精度量化方法。本发明包括采用不同数据位宽对图卷积神经网络的输入矩阵以及不同层进行量化的步骤;以及采用对称的线性量化方法对图卷积神经网络的输入矩阵进行量化的步骤;本发明除了基本量化方式的改进以外,还将混合精度量化的思想嵌入到图卷积神经网络中,对于不同的矩阵数据,采取不同的数据位宽进行量化,对于位于GCN中不同层的矩阵数据,也使用不同的数据位宽进行量化。本发明的量化方法能在提高模型量化精度的同时,实现对整个GCN模型进一步的压缩,使其更加容易在FPGA上部署。

    一种FPGA上基于通道剪裁模式的自动探索系统和方法

    公开(公告)号:CN115903595A

    公开(公告)日:2023-04-04

    申请号:CN202211423762.3

    申请日:2022-11-14

    Applicant: 复旦大学

    Abstract: 本发明公开了一种FPGA上基于通道剪裁模式的自动探索系统和方法。该系统部署在FPGA上确定SSD模型最佳剪裁比例;其包括敏感度分析模块、模型加载模块、FPGM剪裁器、自动化控制模块、mAP综合评估模块和性能评估模块;本发明提出了基于FPGM通道剪裁模式的自动探索方法,在达到要求的全类平均正确率mAP的基础上,通过比较各个卷积层剪枝不同比例结果,自动确定卷积层的最佳剪枝比例,以得到整体模型结构的最优压缩策略。本发明通过所提出的方法实现自动确定最优的剪裁比例和对应的头部特征提取层,进而在FPGA加速器上进行目标识别时,推理速度可以大大提升,同时权衡保证性能、功耗等评价指标较优。

Patent Agency Ranking