-
公开(公告)号:CN117150194A
公开(公告)日:2023-12-01
申请号:CN202311014624.4
申请日:2023-08-14
Applicant: 湖南大学
Abstract: 本申请公开了一种面向异构处理器的批处理矩阵乘优化实现方法及系统,该方法包括如下步骤:步骤S1,CPU通过hthread_mal loc函数在共享DDR内存上给矩阵分配空间;步骤S2,CPU通过决策算法计算得到决策参数,所述决策参数包括矩阵分块大小参数和m_batch大小参数;步骤S3,基于决策参数启动DSP函数。本申请有益效果如下:在DSP上实现了高效批处理矩阵乘(BGEMM)算法,可有效加速包括深度学习在内的多领域应用;减少DSP计算单元访存延迟,提高计算速度;提升GEMM的计算效率。
-
公开(公告)号:CN118260070A
公开(公告)日:2024-06-28
申请号:CN202410270763.1
申请日:2024-03-11
Applicant: 湖南大学
IPC: G06F9/50 , G06N3/063 , G06N3/0464
Abstract: 本发明公开了一种面向异构处理器的池化运算函数高性能实现方法,通过将特征图在空间维度进行分块,使用直接存储器访问(Direct Memory Access,简称DMA)控制数据在内存和高速缓存的传输,从而构建双缓冲机制使得访存延迟得以隐藏,同时依据向量运算资源数目和SIMD特性设计实现并行运算策略以充分利用运算资源,并在计算过程中进行数据重用,减少访存数量。
-