-
公开(公告)号:CN107817969A
公开(公告)日:2018-03-20
申请号:CN201610784850.4
申请日:2016-08-31
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Inventor: 贾海鹏
IPC: G06F8/20
Abstract: 本发明公开了一种程序生成方法、装置及计算机系统,涉及计算机技术领域,能够提升GPU程序的性能,扩大GPU的应用范围。该方法包括:根据CPU程序的计算访存特征和GPU的硬件特性,确定性能参数;确定全局同步机制,全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步;根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制,生成GPU程序。
-
公开(公告)号:CN105677436A
公开(公告)日:2016-06-15
申请号:CN201511033563.1
申请日:2015-12-31
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Inventor: 贾海鹏
IPC: G06F9/45
CPC classification number: G06F8/40
Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式,数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法;根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序;GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度,提升GPU程序的性能。
-
公开(公告)号:CN119088452A
公开(公告)日:2024-12-06
申请号:CN202311113216.4
申请日:2023-08-29
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。
-
公开(公告)号:CN114579299A
公开(公告)日:2022-06-03
申请号:CN202210112283.3
申请日:2022-01-29
Applicant: 中国科学院计算技术研究所
IPC: G06F9/50
Abstract: 本发明提出一种GPU线程负载均衡方法、装置、介质、电子设备,所述方法包括:通过固定GPU程序开启工作组的数量以及每个工作组开启的线程数量,固定GPU程序总开启的线程数量;将需要处理的所有计算任务分组并全部放到命令队列中,构建全局任务队列,允许每一个所述工作组对所述全局任务队列的访问权限;根据所述GPU总开启的线程当前的计算任务负载情况,从所述全局任务队列中获取每一个所述工作组需要执行的计算任务。该方法通过建立线程和任务的动态映射关系以及本地队列和全局队列的构建,实现根据任务负载的动态分配,最终实现GPU线程间的负载均衡。
-
公开(公告)号:CN107817969B
公开(公告)日:2020-10-16
申请号:CN201610784850.4
申请日:2016-08-31
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Inventor: 贾海鹏
IPC: G06F8/20
Abstract: 本发明公开了一种程序生成方法、装置及计算机系统,涉及计算机技术领域,能够提升GPU程序的性能,扩大GPU的应用范围。该方法包括:根据CPU程序的计算访存特征和GPU的硬件特性,确定性能参数;确定全局同步机制,全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步;根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制,生成GPU程序。
-
公开(公告)号:CN105677436B
公开(公告)日:2019-04-05
申请号:CN201511033563.1
申请日:2015-12-31
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Inventor: 贾海鹏
IPC: G06F8/41
Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式,数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法;根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序;GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度,提升GPU程序的性能。
-
公开(公告)号:CN119356733A
公开(公告)日:2025-01-24
申请号:CN202411224268.3
申请日:2023-08-29
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
Abstract: 本申请公开的实施例属于计算技术领域,特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括:处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求,将FFT计算分解为多个计算。处理器依次执行多个计算阶段,其中,在执行至目标计算阶段时,基于向量运算单元执行旋转因子计算,基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后,基于最后一个计算阶段的执行结果,确定FFT计算的执行结果,并将执行结果返回至应用程序。采用本申请,处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算,能够提高处理器执行FFT计算的效率。
-
公开(公告)号:CN117539546A
公开(公告)日:2024-02-09
申请号:CN202311504581.8
申请日:2023-11-13
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种基于非空列存储的稀疏矩阵向量乘加速方法和装置。本发明通过分析传统稀疏矩阵向量乘法实现在输入稠密向量访存上的局限性,提出并设计了一种在CPU上实现高性能稀疏矩阵向量乘法的新的存储格式。通过预处理阶段对稀疏矩阵向量乘法中的稀疏矩阵进行格式转换,不仅实现了稀疏矩阵向量乘法的高性能,而且实现了在不同CPU上的性能可移植。
-
-
-
-
-
-
-