-
公开(公告)号:CN116804987A
公开(公告)日:2023-09-26
申请号:CN202310697283.9
申请日:2023-06-13
Applicant: 东北大学
IPC: G06F16/22 , G06F16/2455 , G06F16/23
Abstract: 本发明公开了一种大负载场景下数据加速方法、系统、及存储介质,包括:建立树模型,所述比较树模型包括用于比较的树,所述树中设置有全局标志位,非叶子节点设置标志位。将待处理数据依次插入树的每个空叶子节点,将父节点作为比较场地进行两两比较,大的数据留在比较场地节点,较小的数据继续向父节点方向参与比较,比较后从根节点输出最小的数据到树外,将最小的数据所在的叶子节点清空,并根据输出数据的标志位,对树的全局标志位进行更新;下一个待处理数据传入树中唯一的空叶子节点。通过标志位锦标赛排序,仅在开始排序时进入一次初始插入阶段和评估阶段,在待排序数据耗尽时进入一次阶段,使得算法不会因频繁地阶段切换而造成性能下降。
-
公开(公告)号:CN116301920B
公开(公告)日:2023-11-07
申请号:CN202310288488.1
申请日:2023-03-23
Applicant: 东北大学
IPC: G06F8/60 , G06F8/41 , G06F9/445 , G06N3/0464 , G06N3/10
Abstract: 本申请涉及卷积神经网络技术加速器应用领域,尤其涉及一种用于部署CNN模型至基于FPGA的高性能加速器的编译系统。包括:编译器前端和编译器后端,以及运行时库和加速器;编译器前端针对待部署的CNN模型进行量化处理,得到IR图;编译器后端确定指令和配置信息;指令包括CONV、MAXP和AVGP、ADD、FC,配置文件包括权重片上内存管理算法进行设置的片上缓存区的相关信息;运行时库,存储指令和配置文件至DRAM,以及对FPGA进行配置;加速器中的卷积引擎为基于im2col并行策略设置的全流水脉动阵列。本申请提供了用于部署CNN模型至基于FPGA的高性能加速器的编译系统,编译系统提供了完整的基于ONNXIR的灵活工具流,可以很方便地将不同的CNN模型部署到FPGA上。
-
公开(公告)号:CN116821125A
公开(公告)日:2023-09-29
申请号:CN202310697612.X
申请日:2023-06-13
Applicant: 东北大学
Abstract: 本发明公开了一种基于高并行场景下的FPGA数据加速方法,包括:建立用于比较的二叉树,假设所述树的叶子节点数量为N,对所述二叉树设置一个全局标志位,对二叉树的每个非叶子节点设置一个标志位;将待处理数据依次插入二叉树的空叶子节点,并在非叶子节点进行比较,将比较中较小的数据传入父节点继续参与比较,最后输出二叉树中最小的数据,清空最小数据所在的叶子节点。根据输出数据的标志位,对全局标志位进行更新;插入新数据,设置新数据的标志位,对树内数据互相比较,输出本次比较后的最小数据;直到所有数据全部插入,输出排序后的数据集,在单位时间内排序数据量提高,缩短连接阶段运行时间,减少资源消耗,提高看数据的处理速度。
-
公开(公告)号:CN116301920A
公开(公告)日:2023-06-23
申请号:CN202310288488.1
申请日:2023-03-23
Applicant: 东北大学
IPC: G06F8/60 , G06F8/41 , G06F9/445 , G06N3/0464 , G06N3/10
Abstract: 本申请涉及卷积神经网络技术加速器应用领域,尤其涉及一种用于部署CNN模型至基于FPGA的高性能加速器的编译系统。包括:编译器前端和编译器后端,以及运行时库和加速器;编译器前端针对待部署的CNN模型进行量化处理,得到IR图;编译器后端确定指令和配置信息;指令包括CONV、MAXP和AVGP、ADD、FC,配置文件包括权重片上内存管理算法进行设置的片上缓存区的相关信息;运行时库,存储指令和配置文件至DRAM,以及对FPGA进行配置;加速器中的卷积引擎为基于im2col并行策略设置的全流水脉动阵列。本申请提供了用于部署CNN模型至基于FPGA的高性能加速器的编译系统,编译系统提供了完整的基于ONNXIR的灵活工具流,可以很方便地将不同的CNN模型部署到FPGA上。
-
-
-