一种程序生成方法、装置及计算机系统

    公开(公告)号:CN107817969A

    公开(公告)日:2018-03-20

    申请号:CN201610784850.4

    申请日:2016-08-31

    Inventor: 贾海鹏

    Abstract: 本发明公开了一种程序生成方法、装置及计算机系统,涉及计算机技术领域,能够提升GPU程序的性能,扩大GPU的应用范围。该方法包括:根据CPU程序的计算访存特征和GPU的硬件特性,确定性能参数;确定全局同步机制,全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步;根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制,生成GPU程序。

    程序转换方法、处理器及计算机系统

    公开(公告)号:CN105677436A

    公开(公告)日:2016-06-15

    申请号:CN201511033563.1

    申请日:2015-12-31

    Inventor: 贾海鹏

    CPC classification number: G06F8/40

    Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式,数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法;根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序;GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度,提升GPU程序的性能。

    执行FFT的方法、处理器和计算设备

    公开(公告)号:CN119088452A

    公开(公告)日:2024-12-06

    申请号:CN202311113216.4

    申请日:2023-08-29

    Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。

    GPU线程负载均衡方法、装置、芯片、电子设备

    公开(公告)号:CN114579299A

    公开(公告)日:2022-06-03

    申请号:CN202210112283.3

    申请日:2022-01-29

    Inventor: 贾海鹏 张云泉

    Abstract: 本发明提出一种GPU线程负载均衡方法、装置、介质、电子设备,所述方法包括:通过固定GPU程序开启工作组的数量以及每个工作组开启的线程数量,固定GPU程序总开启的线程数量;将需要处理的所有计算任务分组并全部放到命令队列中,构建全局任务队列,允许每一个所述工作组对所述全局任务队列的访问权限;根据所述GPU总开启的线程当前的计算任务负载情况,从所述全局任务队列中获取每一个所述工作组需要执行的计算任务。该方法通过建立线程和任务的动态映射关系以及本地队列和全局队列的构建,实现根据任务负载的动态分配,最终实现GPU线程间的负载均衡。

    一种程序生成方法、装置及计算机系统

    公开(公告)号:CN107817969B

    公开(公告)日:2020-10-16

    申请号:CN201610784850.4

    申请日:2016-08-31

    Inventor: 贾海鹏

    Abstract: 本发明公开了一种程序生成方法、装置及计算机系统,涉及计算机技术领域,能够提升GPU程序的性能,扩大GPU的应用范围。该方法包括:根据CPU程序的计算访存特征和GPU的硬件特性,确定性能参数;确定全局同步机制,全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步;根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制,生成GPU程序。

    程序转换方法、处理器及计算机系统

    公开(公告)号:CN105677436B

    公开(公告)日:2019-04-05

    申请号:CN201511033563.1

    申请日:2015-12-31

    Inventor: 贾海鹏

    Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式,数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法;根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序;GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度,提升GPU程序的性能。

    执行FFT的方法、处理器和计算设备

    公开(公告)号:CN119356733A

    公开(公告)日:2025-01-24

    申请号:CN202411224268.3

    申请日:2023-08-29

    Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。

Patent Agency Ranking