一种基于SVE指令集的池化层函数的高性能实现方法

    公开(公告)号:CN115878188B

    公开(公告)日:2023-05-05

    申请号:CN202310132475.5

    申请日:2023-02-20

    Applicant: 湖南大学

    Inventor: 全哲 谭言西

    Abstract: 本申请公开了一种基于SVE指令集的池化层函数的高性能实现方法,其针对支持SVE指令集的Armv8、Armv9架构平台,采用interface接口‑driver驱动‑kernel汇编核心代码三层代码设计框架,使用循环展开,汇编级别流水线指令重排,SIMD向量化指令,双向循环展开等技术手段,实现了汇编级别的优化手段,并且提供了多线程的接口和可用于多线程的逻辑实现来获取线程化的优化。面对NHWC数据类型的池化操作,解决了编译器无法获得最佳性能的问题,提高了硬件的性能表现,与传统形式NHWC深度优先的池化相比,在x86上创建的Armv8.2虚拟机上仍可以达到2.67倍加速比。

    一种基于SVE指令集的池化层函数的高性能实现方法

    公开(公告)号:CN115878188A

    公开(公告)日:2023-03-31

    申请号:CN202310132475.5

    申请日:2023-02-20

    Applicant: 湖南大学

    Inventor: 全哲 谭言西

    Abstract: 本申请公开了一种基于SVE指令集的池化层函数的高性能实现方法,其针对支持SVE指令集的Armv8、Armv9架构平台,采用interface接口‑driver驱动‑kernel汇编核心代码三层代码设计框架,使用循环展开,汇编级别流水线指令重排,SIMD向量化指令,双向循环展开等技术手段,实现了汇编级别的优化手段,并且提供了多线程的接口和可用于多线程的逻辑实现来获取线程化的优化。面对NHWC数据类型的池化操作,解决了编译器无法获得最佳性能的问题,提高了硬件的性能表现,与传统形式NHWC深度优先的池化相比,在x86上创建的Armv8.2虚拟机上仍可以达到2.67倍加速比。

Patent Agency Ranking