-
公开(公告)号:CN118170687B
公开(公告)日:2024-09-06
申请号:CN202410588847.X
申请日:2024-05-13
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
Abstract: 本申请公开了一种BLAS库的测试方法及装置、非易失性存储介质、电子设备。其中,该方法包括:获取参数列表,其中,参数列表中记录有多个标识信息和多个操作名称;解析参数列表,得到多个标识信息和多个操作名称;确定与每个目标平台对应的测试项目,并在每个目标平台中创建与每个测试项目对应的测试环境,其中,测试项目包括:计算类操作测试和辅助类操作测试;调用与每个操作名称对应的测试程序在每个测试环境对BLAS库进行测试,得到BLAS库在每个目标平台的测试结果。本申请解决了由于相关技术中用于测试BLAS库的方法无法兼容多个异构平台造成的无法在跨平台场景下进行任意两个BLAS库的正确性对齐测试和性能对齐测试的技术问题。
-
公开(公告)号:CN116341628B
公开(公告)日:2024-02-13
申请号:CN202310162148.4
申请日:2023-02-24
Applicant: 北京大学长沙计算与数字经济研究院 , 北京大学
IPC: G06N3/0495 , G06N3/098
Abstract: 本发明提供一种面向分布式训练的高效梯度稀疏化方法及系统,其中方法包括:将以稠密格式存储的梯度划分为若干个子块,每个子块的大小为第一数值;在每个子块的块内取固定的前第二数值的个数的元素;使用两个数组分别存储提取的元素的下标及值;其中,第二数值的值为第一数值的值乘以预设的参数。本发明面向分布式训练的高效梯度稀疏化方法,将均衡分块方法引入梯度稀疏化中,可以实现天然的均衡负载划分,并通过转化为批量运算充分利用异构硬件平台的高并行性,提高梯度稀疏化的计算性能。
-
公开(公告)号:CN119066309A
公开(公告)日:2024-12-03
申请号:CN202411073502.7
申请日:2024-08-06
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
Abstract: 本申请公开了一种多维快速傅里叶变换数据处理方法、装置及电子设备。其中,该方法包括:依据待处理序列在各个维度上的第一序列长度和预设批处理大小,确定待处理序列在各个维度上对应的转置参数和批处理大小;依据各个维度对应的第一序列长度以及待处理序列在各个维度的分量,确定待处理序列在各个维度的分量对应的至少一个子序列,其中,转置参数用于确定是否对子序列执行转置操作;依据子序列的第二序列长度和子序列在图形处理器内存中的存储形式将子序列分解为多个分解因子。本申请解决了由于相关技术中在对多维快速傅里叶变换数据进行处理时采用固定的分解策略导致的计算效率低且耗时过长的技术问题。
-
公开(公告)号:CN117407419B
公开(公告)日:2024-11-01
申请号:CN202311160042.7
申请日:2023-09-08
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
IPC: G06F16/2455 , G06F16/28
Abstract: 本发明公开了一种高维数据的查找方法及装置、存储介质、电子设备。其中,该方法包括:确定搜索空间中的初始值,其中,初始值包括初始位置值和初始元素值,初始位置值由N个向量构成,每个向量长度为高维数组对应阶的维度大小,N为大于2的正整数;基于初始值查找搜索空间在单一维度的单维最大值,以及单维最大值的数组位置;将单维最大值和数组位置输出为搜索空间在当前迭代周期的当前最大元素。通过本发明,解决了相关技术中在搜索空间中查找高维最大元素的准确率低的技术问题,可适配于各种低秩表示形式的数据,通用性高,通过交替迭代的策略保证了收敛性,且减少了对超参数的依赖,无论是人造数据还是真实数据,提高了准确率和稳定性。
-
公开(公告)号:CN118170687A
公开(公告)日:2024-06-11
申请号:CN202410588847.X
申请日:2024-05-13
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
Abstract: 本申请公开了一种BLAS库的测试方法及装置、非易失性存储介质、电子设备。其中,该方法包括:获取参数列表,其中,参数列表中记录有多个标识信息和多个操作名称;解析参数列表,得到多个标识信息和多个操作名称;确定与每个目标平台对应的测试项目,并在每个目标平台中创建与每个测试项目对应的测试环境,其中,测试项目包括:计算类操作测试和辅助类操作测试;调用与每个操作名称对应的测试程序在每个测试环境对BLAS库进行测试,得到BLAS库在每个目标平台的测试结果。本申请解决了由于相关技术中用于测试BLAS库的方法无法兼容多个异构平台造成的无法在跨平台场景下进行任意两个BLAS库的正确性对齐测试和性能对齐测试的技术问题。
-
公开(公告)号:CN117407419A
公开(公告)日:2024-01-16
申请号:CN202311160042.7
申请日:2023-09-08
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
IPC: G06F16/2455 , G06F16/28
Abstract: 本发明公开了一种高维数据的查找方法及装置、存储介质、电子设备。其中,该方法包括:确定搜索空间中的初始值,其中,初始值包括初始位置值和初始元素值,初始位置值由N个向量构成,每个向量长度为高维数组对应阶的维度大小,N为大于2的正整数;基于初始值查找搜索空间在单一维度的单维最大值,以及单维最大值的数组位置;将单维最大值和数组位置输出为搜索空间在当前迭代周期的当前最大元素。通过本发明,解决了相关技术中在搜索空间中查找高维最大元素的准确率低的技术问题,可适配于各种低秩表示形式的数据,通用性高,通过交替迭代的策略保证了收敛性,且减少了对超参数的依赖,无论是人造数据还是真实数据,提高了准确率和稳定性。
-
公开(公告)号:CN116405398A
公开(公告)日:2023-07-07
申请号:CN202310144049.3
申请日:2023-02-21
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
IPC: H04L41/12 , G06N3/04 , G06N3/08 , H04L41/14 , H04L41/0896
Abstract: 本发明公开了一种稀疏梯度规约的方法、装置、终端设备及介质,包括:获取网络拓扑结构;根据网络拓扑结构将全局设备分为二维设备网格(n,d),同时将稀疏张量也分为二维稀疏张量(d,n),其中n代表节点数目,d代表每个节点内的设备数目;基于预设Reduce‑Scatter算法对二维设备网格(n,d)及二维稀疏张量(d,n)进行通信规约,确定规约结果;基于AllGather算法对规约结果进行处理,得到最终处理结果。根据底层带宽制定高效的梯度规约模式,以实现网络带宽的高效利用,缓解低带宽瓶颈,提升训练性能。
-
公开(公告)号:CN116720568A
公开(公告)日:2023-09-08
申请号:CN202310697492.3
申请日:2023-06-13
Applicant: 北京大学长沙计算与数字经济研究院 , 北京大学
Abstract: 本发明涉及神经网络参数压缩、张量分解方法、存储介质和终端设备,包括:提取神经网络参数构成的N阶张量;将N阶张量执行优化张量分解过程,得到N个三阶核张量,代替N阶张量,执行神经网络步骤;关键在于,其优化张量分解过程,对缩并顺序进行了调整优化,根据待分解张量的阶数,构建待分解张量的序列集合;求和得到总序列;判断其中存在几个位置的值等于序列集合的序列个数的倍数;若存在一个,则将该一个位置对应的节点设定为公共节点;若存在多个,则将该多个位置对应的节点串联;判断序列集合的序列个数是否大于1,若是则将其划分为两组,递归上述步骤,若否,则得到缩并顺序,据此优化张量分解过程压缩神经网络参数。
-
公开(公告)号:CN118885711A
公开(公告)日:2024-11-01
申请号:CN202411073503.1
申请日:2024-08-06
Applicant: 北京大学 , 北京大学长沙计算与数字经济研究院
Abstract: 本申请公开了一种一维快速傅里叶变换数据处理方法、装置及电子设备。其中,该方法包括:对待处理序列进行分解,得到多个子序列,多个子序列的子序列数量和子序列的子序列维度为待处理序列的分解因子;依据待处理序列的序列长度和分解因子确定与待处理序列对应的计算图;依据计算图,多个子序列和图形处理器平台的硬件参数在图形处理器平台中确定目标内核的配置信息;依据配置信息在图形处理器平台中生成与目标内核对应的目标内核函数,并执行目标内核函数来对多个子序列进行求解。本申请解决了相关技术中的一维快速傅里叶变换计算方法均对图形处理器的结构有要求导致的泛用性较低的技术问题。
-
公开(公告)号:CN116701816A
公开(公告)日:2023-09-05
申请号:CN202310605576.X
申请日:2023-05-26
Applicant: 北京大学长沙计算与数字经济研究院 , 北京大学
IPC: G06F17/10
Abstract: 本发明涉及缩并顺序的优化及张量分解方法、存储介质和终端设备,在连续缩并满足交换律,即缩并运算的计算顺序对结果没有影响的指导下,在每个因子更新时,将待缩并张量排序,以从待缩并张量的两边到中间缩并为基本原则,减少计算量、优化缩并类型;在此原则基础上,在缩并过程中进一步的以最小计算量为优化目标,确定每个因子更新的最优缩并顺序,以进一步降低计算量,提升张量分解的整体性能。
-
-
-
-
-
-
-
-
-