一种程序生成方法、装置及计算机系统

    公开(公告)号:CN107817969A

    公开(公告)日:2018-03-20

    申请号:CN201610784850.4

    申请日:2016-08-31

    Inventor: 贾海鹏

    Abstract: 本发明公开了一种程序生成方法、装置及计算机系统,涉及计算机技术领域,能够提升GPU程序的性能,扩大GPU的应用范围。该方法包括:根据CPU程序的计算访存特征和GPU的硬件特性,确定性能参数;确定全局同步机制,全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步;根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制,生成GPU程序。

    程序转换方法、处理器及计算机系统

    公开(公告)号:CN105677436A

    公开(公告)日:2016-06-15

    申请号:CN201511033563.1

    申请日:2015-12-31

    Inventor: 贾海鹏

    CPC classification number: G06F8/40

    Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式,数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法;根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序;GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度,提升GPU程序的性能。

    执行FFT的方法、处理器和计算设备

    公开(公告)号:CN119088452A

    公开(公告)日:2024-12-06

    申请号:CN202311113216.4

    申请日:2023-08-29

    Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。

    一种程序生成方法、装置及计算机系统

    公开(公告)号:CN107817969B

    公开(公告)日:2020-10-16

    申请号:CN201610784850.4

    申请日:2016-08-31

    Inventor: 贾海鹏

    Abstract: 本发明公开了一种程序生成方法、装置及计算机系统,涉及计算机技术领域,能够提升GPU程序的性能,扩大GPU的应用范围。该方法包括:根据CPU程序的计算访存特征和GPU的硬件特性,确定性能参数;确定全局同步机制,全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步;根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制,生成GPU程序。

    程序转换方法、处理器及计算机系统

    公开(公告)号:CN105677436B

    公开(公告)日:2019-04-05

    申请号:CN201511033563.1

    申请日:2015-12-31

    Inventor: 贾海鹏

    Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式,数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法;根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序;GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度,提升GPU程序的性能。

    执行FFT的方法、处理器和计算设备

    公开(公告)号:CN119356733A

    公开(公告)日:2025-01-24

    申请号:CN202411224268.3

    申请日:2023-08-29

    Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。

    GPU线程负载均衡方法、装置、芯片、电子设备

    公开(公告)号:CN114579299A

    公开(公告)日:2022-06-03

    申请号:CN202210112283.3

    申请日:2022-01-29

    Inventor: 贾海鹏 张云泉

    Abstract: 本发明提出一种GPU线程负载均衡方法、装置、介质、电子设备,所述方法包括:通过固定GPU程序开启工作组的数量以及每个工作组开启的线程数量,固定GPU程序总开启的线程数量;将需要处理的所有计算任务分组并全部放到命令队列中,构建全局任务队列,允许每一个所述工作组对所述全局任务队列的访问权限;根据所述GPU总开启的线程当前的计算任务负载情况,从所述全局任务队列中获取每一个所述工作组需要执行的计算任务。该方法通过建立线程和任务的动态映射关系以及本地队列和全局队列的构建,实现根据任务负载的动态分配,最终实现GPU线程间的负载均衡。

    一种快速傅里叶变换代码的生成方法及装置

    公开(公告)号:CN110750249A

    公开(公告)日:2020-02-04

    申请号:CN201810823431.6

    申请日:2018-07-24

    Abstract: 本申请公开了一种快速傅里叶变换代码生成方法及装置,用于生成快速傅里叶变换FFT代码,将FFT代码分解为多个原子模板,便于后续对原子模板进行优化,进一步提高FFT代码的性能。方法包括:获取需要进行快速傅里叶变换FFT的数据序列以及数据序列的长度;根据数据序列的长度确定数据序列的FFT分解方式,得到对应FFT分解方式的蝶形网络的一个或多个级,每个级对应一种蝶形的基;根据每一级对应的蝶形的基确定每一级中需要调用的蝶形代码以及每一级中的蝶形代码被调用的调用次数;根据每一级中的蝶形代码以及每一级中的蝶形代码被调用的调用次数逐级生成各个级的代码,以得到对数据序列进行快速傅里叶变换的FFT代码。

    一种提高GEMM计算性能的方法及装置

    公开(公告)号:CN109460533A

    公开(公告)日:2019-03-12

    申请号:CN201710795580.1

    申请日:2017-09-06

    Abstract: 本申请提供了一种提高GEMM计算性能的方法及装置,获取待优化的通用矩阵-矩阵乘GEMM计算的参数,从至少一个历史的GEMM计算的参数中查询目标参数,目标参数为与待优化的GEMM计算的参数满足预设关系的参数。依据参数与优化方法的预设对应关系,确定所述目标参数对应的优化方法。并使用所述目标参数对应的优化方法,优化所述待优化的GEMM计算。其中,GEMM计算的参数基于参与GEMM计算的矩阵的大小确定。因为将参与待优化的GEMM计算的矩阵的特征作为优化待优化的GEMM计算的依据,所以,在使用深度卷积神经网络对目标进行检测的过程中,即使矩阵的规模小或者形状不规则,也能提高GEMM计算的性能。

Patent Agency Ranking