Patent search ap:("华为技术有限公司" OR "中国科学院计算技术研究所") AND inv:"贾海鹏" Page 1

1.

发明公开
一种程序生成方法、装置及计算机系统有权

公开(公告)号：CN107817969A

公开(公告)日：2018-03-20

申请号：CN201610784850.4

申请日：2016-08-31

Applicant: 华为技术有限公司 , 中国科学院计算技术研究所

Inventor： 贾海鹏

IPC: G06F8/20

Abstract: 本发明公开了一种程序生成方法、装置及计算机系统，涉及计算机技术领域，能够提升GPU程序的性能，扩大GPU的应用范围。该方法包括：根据CPU程序的计算访存特征和GPU的硬件特性，确定性能参数；确定全局同步机制，全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步；根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制，生成GPU程序。

2.

发明公开
程序转换方法、处理器及计算机系统有权

公开(公告)号：CN105677436A

公开(公告)日：2016-06-15

申请号：CN201511033563.1

申请日：2015-12-31

Applicant: 华为技术有限公司 , 中国科学院计算技术研究所

Inventor： 贾海鹏

IPC: G06F9/45

CPC classification number: G06F8/40

Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式，数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法；根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序；GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度，提升GPU程序的性能。

3.

发明公开
执行FFT的方法、处理器和计算设备审中-实审

公开(公告)号：CN119088452A

公开(公告)日：2024-12-06

申请号：CN202311113216.4

申请日：2023-08-29

Applicant: 华为技术有限公司 , 中国科学院计算技术研究所

Inventor： 麻鹏豪 , 李英浩 , 张儒戈 , 闫柏成 , 王哲 , 王龙 , 贾海鹏

IPC: G06F9/30 , G06F17/14 , G06F17/16

Abstract: 本申请公开的实施例属于计算技术领域，特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括：处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求，将FFT计算分解为多个计算。处理器依次执行多个计算阶段，其中，在执行至目标计算阶段时，基于向量运算单元执行旋转因子计算，基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后，基于最后一个计算阶段的执行结果，确定FFT计算的执行结果，并将执行结果返回至应用程序。采用本申请，处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算，能够提高处理器执行FFT计算的效率。

4.

发明授权
一种程序生成方法、装置及计算机系统有权

公开(公告)号：CN107817969B

公开(公告)日：2020-10-16

申请号：CN201610784850.4

申请日：2016-08-31

Applicant: 华为技术有限公司 , 中国科学院计算技术研究所

Inventor： 贾海鹏

IPC: G06F8/20

Abstract: 本发明公开了一种程序生成方法、装置及计算机系统，涉及计算机技术领域，能够提升GPU程序的性能，扩大GPU的应用范围。该方法包括：根据CPU程序的计算访存特征和GPU的硬件特性，确定性能参数；确定全局同步机制，全局同步机制用于实现待生成GPU程序的线程在GPU Kernel函数中的全局同步；根据CPU程序、预设的程序自动生成框架、性能参数以及全局同步机制，生成GPU程序。

5.

发明授权
程序转换方法、处理器及计算机系统有权

公开(公告)号：CN105677436B

公开(公告)日：2019-04-05

申请号：CN201511033563.1

申请日：2015-12-31

Applicant: 华为技术有限公司 , 中国科学院计算技术研究所

Inventor： 贾海鹏

IPC: G06F8/41

Abstract: 本发明实施例提供一种程序转换方法、处理器及计算机系统。本发明的程序转换方法包括根据CPU程序确定待生成GPU程序对应的数据本地化方式，数据本地化方式包括对待生成GPU程序进行数据本地化采用的算法；根据CPU程序、GPU的存储资源属性和待生成GPU程序对应的数据本地化方式生成GPU程序；GPU的存储资源属性为根据GPU的硬件存储资源确定的。本发明实施例可简化GPU程序的开发难度，提升GPU程序的性能。

6.

发明公开
执行FFT的方法、处理器和计算设备审中-实审

公开(公告)号：CN119356733A

公开(公告)日：2025-01-24

申请号：CN202411224268.3

申请日：2023-08-29

Applicant: 华为技术有限公司 , 中国科学院计算技术研究所

Inventor： 麻鹏豪 , 李英浩 , 张儒戈 , 闫柏成 , 王哲 , 王龙 , 贾海鹏

IPC: G06F9/30 , G06F17/14 , G06F17/16

Abstract: 本申请公开的实施例属于计算技术领域，特别涉及一种执行FFT的方法、处理器和计算设备。该方法包括：处理器响应于应用程序的快速傅里叶变换FFT计算的执行请求，将FFT计算分解为多个计算。处理器依次执行多个计算阶段，其中，在执行至目标计算阶段时，基于向量运算单元执行旋转因子计算，基于矩阵运算单元执行DFT计算。在完成多个计算阶段的执行后，基于最后一个计算阶段的执行结果，确定FFT计算的执行结果，并将执行结果返回至应用程序。采用本申请，处理器可以基于向量运算单元和矩阵运算单元共同实现FFT的计算，能够提高处理器执行FFT计算的效率。

7.

发明公开
GPU线程负载均衡方法、装置、芯片、电子设备审中-实审

公开(公告)号：CN114579299A

公开(公告)日：2022-06-03

申请号：CN202210112283.3

申请日：2022-01-29

Applicant: 中国科学院计算技术研究所

Inventor： 贾海鹏 , 张云泉

IPC: G06F9/50

Abstract: 本发明提出一种GPU线程负载均衡方法、装置、介质、电子设备，所述方法包括：通过固定GPU程序开启工作组的数量以及每个工作组开启的线程数量，固定GPU程序总开启的线程数量；将需要处理的所有计算任务分组并全部放到命令队列中，构建全局任务队列，允许每一个所述工作组对所述全局任务队列的访问权限；根据所述GPU总开启的线程当前的计算任务负载情况，从所述全局任务队列中获取每一个所述工作组需要执行的计算任务。该方法通过建立线程和任务的动态映射关系以及本地队列和全局队列的构建，实现根据任务负载的动态分配，最终实现GPU线程间的负载均衡。

8.

发明公开
基于非空列存储的稀疏矩阵向量乘加速方法及装置审中-实审

公开(公告)号：CN117539546A

公开(公告)日：2024-02-09

申请号：CN202311504581.8

申请日：2023-11-13

Applicant: 中国科学院计算技术研究所

Inventor： 贾海鹏 , 张云泉 , 王麓涵

IPC: G06F9/38 , G06F17/16 , G06F7/523 , G06F8/76

Abstract: 本发明提出一种基于非空列存储的稀疏矩阵向量乘加速方法和装置。本发明通过分析传统稀疏矩阵向量乘法实现在输入稠密向量访存上的局限性，提出并设计了一种在CPU上实现高性能稀疏矩阵向量乘法的新的存储格式。通过预处理阶段对稀疏矩阵向量乘法中的稀疏矩阵进行格式转换，不仅实现了稀疏矩阵向量乘法的高性能，而且实现了在不同CPU上的性能可移植。

9.

发明公开
一种快速傅里叶变换代码的生成方法及装置有权转让

公开(公告)号：CN110750249A

公开(公告)日：2020-02-04

申请号：CN201810823431.6

申请日：2018-07-24

Applicant: 华为技术有限公司

Inventor： 李志豪 , 齐霁 , 张邵敏 , 景玉超 , 贾海鹏

IPC: G06F8/30 , G06F17/14

Abstract: 本申请公开了一种快速傅里叶变换代码生成方法及装置，用于生成快速傅里叶变换FFT代码，将FFT代码分解为多个原子模板，便于后续对原子模板进行优化，进一步提高FFT代码的性能。方法包括：获取需要进行快速傅里叶变换FFT的数据序列以及数据序列的长度；根据数据序列的长度确定数据序列的FFT分解方式，得到对应FFT分解方式的蝶形网络的一个或多个级，每个级对应一种蝶形的基；根据每一级对应的蝶形的基确定每一级中需要调用的蝶形代码以及每一级中的蝶形代码被调用的调用次数；根据每一级中的蝶形代码以及每一级中的蝶形代码被调用的调用次数逐级生成各个级的代码，以得到对数据序列进行快速傅里叶变换的FFT代码。

10.

发明公开
一种提高GEMM计算性能的方法及装置有权转让

公开(公告)号：CN109460533A

公开(公告)日：2019-03-12

申请号：CN201710795580.1

申请日：2017-09-06

Applicant: 华为技术有限公司

Inventor： 齐霁 , 张邵敏 , 贾海鹏

IPC: G06F17/16 , G06N3/04

Abstract: 本申请提供了一种提高GEMM计算性能的方法及装置，获取待优化的通用矩阵-矩阵乘GEMM计算的参数，从至少一个历史的GEMM计算的参数中查询目标参数，目标参数为与待优化的GEMM计算的参数满足预设关系的参数。依据参数与优化方法的预设对应关系，确定所述目标参数对应的优化方法。并使用所述目标参数对应的优化方法，优化所述待优化的GEMM计算。其中，GEMM计算的参数基于参与GEMM计算的矩阵的大小确定。因为将参与待优化的GEMM计算的矩阵的特征作为优化待优化的GEMM计算的依据，所以，在使用深度卷积神经网络对目标进行检测的过程中，即使矩阵的规模小或者形状不规则，也能提高GEMM计算的性能。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification