并行运行时错误检测方法
    11.
    发明公开

    公开(公告)号:CN105243023A

    公开(公告)日:2016-01-13

    申请号:CN201510831795.5

    申请日:2015-11-24

    Abstract: 本发明提供了一种并行运行时错误检测方法,包括:设置初始值为0的第一计数器和第二计数器;在进程进入一个MPI阻塞操作时,第一计数器加一,并启动一个定时器;在从该阻塞操作返回时,将第一计数器的值赋给第二计数器,并取消定时器;而且,如果该MPI阻塞在一个MPI调用中,则在定时器满时触发一个软中断信号,从而进入一个中断处理函数,在中断处理函数中比较第一计数器和第二计数器的当前值,如果第一计数器和第二计数器的当前值不相等,则执行状态转储并随后执行死锁检测;如果第一计数器和第二计数器的当前值相等,则从中断处理函数返回,并继续执行并行程序。

    一种面向异构众核平台的Im2col加速方法

    公开(公告)号:CN114219065A

    公开(公告)日:2022-03-22

    申请号:CN202110349448.4

    申请日:2021-03-31

    Abstract: 本发明公开一种面向异构众核平台的Im2col加速方法,C*H*W的张量经过Im2col变换后的矩阵形状为(C*Kh*Kw)*(Ho*Wo),其中C是通道数,H和W分别为输入的高度和宽度,Kh和Kw为卷积核大小,Ho和Wo为输出张量的高度和宽度;根据C*Kh的大小选择不同的算法:当C*Kh大于等于64时,从变换后的矩阵出发,按照C*Kh进行任务划分;当C*Kh小于64时,从变换前的矩阵出发,按照C*H进行任务划分。本发明有效提高了Im2col变换的运算效率,作为卷积计算的前处理过程,有效保障了卷积算子和卷积神经网络的高效运行。

    一种针对大规模系统深度学习数据并行的分级通信优化方法

    公开(公告)号:CN114218146A

    公开(公告)日:2022-03-22

    申请号:CN202110452650.X

    申请日:2021-04-26

    Abstract: 本发明公开一种针对大规模系统深度学习数据并行的分级通信优化方法,S1、根据所需计算节点总数,从若干个超节点中选择相同数量的计算节点,将计算节点按超节点进行分组;S2、每个计算节点计算出模型参数的梯度后,在分组内部进行MPI_Allreduce通信,计算出分组内的平均梯度;S3、各分组内的通信节点采用Ring_Allreduce算法进行梯度的Allreduce操作,计算出所有计算节点的平均梯度;S4、通信节点在分组内部进行Broadcast操作,完成所有计算节点的梯度更新。本发明在大规模分布式深度学习应用中的梯度更新过程中,减少了高延迟通信次数,充分利用了高速网络的通信性能,提高了通信效率。

    一种半精度浮点矩阵乘累加误差的优化方法

    公开(公告)号:CN114217765A

    公开(公告)日:2022-03-22

    申请号:CN202110480219.6

    申请日:2021-04-30

    Abstract: 本发明公开一种半精度浮点矩阵乘累加误差的优化方法,针对半精度浮点矩阵乘的分块运算,在进行分块结果累加计算时,先进行各分块内部累加,再进行分块间累加,具体包括以下步骤:S1、两个形状为M*K和K*N的矩阵进行半精度矩阵乘法时,如果K大于64,则将矩阵数据按kernel(M*N*K为8*32*32)进行分块;S2、每组分块中,对矩阵乘法的结果进行内部累加;S3、将S2中获得的每组分块的结果进行块间累加。本发明有效缓解了由于半精度类型数据表示范围较小导致的计算结果误差较大的问题。

    针对深度学习的浮点矩阵乘算子众核并行优化方法

    公开(公告)号:CN112732630A

    公开(公告)日:2021-04-30

    申请号:CN201910975075.4

    申请日:2019-10-14

    Abstract: 本发明公开一种针对深度学习的浮点矩阵乘算子众核并行优化方法,包括将输入矩阵和输出矩阵进行扩展和在从核阵列上基于分块矩阵乘法进行计算;所述将输入矩阵和输出矩阵进行扩展包括以下步骤:S1、预申请扩展矩阵的空间;S2、在预申请空间上对输入矩阵和输出矩阵进行排布;S3、对于行方向M不整除情况,行数小于M的部分,按行读入N个数据,并对非整除列赋零后扩展为N_size个数据,写回扩展矩阵的对应位置;S4、对于列方向N不整除部分,首先从原始矩阵跨步读入右侧N不整除部分数据到局存,倒序扩展第N+1到N_size列为0。发明既可以减少访存的开销,又可以使算法的适用范围得到扩展,对于任意维度都有很好的支持。

    并行运行时错误检测方法
    16.
    发明授权

    公开(公告)号:CN105243023B

    公开(公告)日:2017-09-26

    申请号:CN201510831795.5

    申请日:2015-11-24

    Abstract: 本发明提供了一种并行运行时错误检测方法,包括:设置初始值为0的第一计数器和第二计数器;在进程进入一个MPI阻塞操作时,第一计数器加一,并启动一个定时器;在从该阻塞操作返回时,将第一计数器的值赋给第二计数器,并取消定时器;而且,如果该MPI阻塞在一个MPI调用中,则在定时器满时触发一个软中断信号,从而进入一个中断处理函数,在中断处理函数中比较第一计数器和第二计数器的当前值,如果第一计数器和第二计数器的当前值不相等,则执行状态转储并随后执行死锁检测;如果第一计数器和第二计数器的当前值相等,则从中断处理函数返回,并继续执行并行程序。

    基于目标机器的程序性能分析方法

    公开(公告)号:CN102981952A

    公开(公告)日:2013-03-20

    申请号:CN201210439785.3

    申请日:2012-11-06

    Abstract: 本发明提供了一种基于目标机器的程序分析方法,所述方法包括:执行待分析程序,获取待分析程序中时间热点的与性能指标相关的特征数据,所述性能指标是基于目标机器和样本程序包而选定的;获取与所述性能指标对应的性能描述标准,所述性能描述标准是针对所述目标机器和样本程序包确定的参考数据;以及比对所述特征数据和所述性能描述标准,以获得所述待分析程序针对所述目标机器的性能瓶颈。所述方法能够针对目标机器找出所述待分析程序中存在的性能瓶颈。

    将本地方法动态封装为服务的方法

    公开(公告)号:CN112445466A

    公开(公告)日:2021-03-05

    申请号:CN201910822525.6

    申请日:2019-09-02

    Abstract: 本发明公开一种将本地方法动态封装为服务的方法,基于字节码生成和反射技术,包括以下步骤:S1、采用自说明的Xml文件格式,设计生成Java类的配置文件;S2、通过S1中生成的配置文件编写对应Java类的自动生成模块,即根据配置文件中描述的Java类的结构和内容,以ASM为工具,以JNA直接映射模式下Java代理类的格式,生成Java类的字节码;S3、设计服务发布的通用URI格式;S4、通过反射技术编写通用的Servle。本发明只需修改配置文件,完成服务的重新发布和本地方法的调用,即可实现了各种角色之间的解耦,当业务需要变更时,避免了服务层面的开发过程的迭代,从而快速地实现业务系统的更新。

    基于插装标签的核间协同多线程PMU事件监测方法

    公开(公告)号:CN105426296A

    公开(公告)日:2016-03-23

    申请号:CN201510826916.7

    申请日:2015-11-24

    CPC classification number: G06F11/3466

    Abstract: 本发明提供了一种基于插装标签的核间协同多线程PMU事件监测方法,用于异构众核处理器。异构众核处理器包括用于执行计算操作的运算核心和用于执行控制和服务操作的运算控制核心。其中,运算控制核心设置各个运算核心上运行的线程所关心的性能事件;初始化各个运算核心上运行的线程的PMU;在各个运算核心上运行的线程上插装标签;运算控制核心在后台透明地收集各个运算核心上运行的线程上的插装标签所实时返回的数据;运算控制核心集中整理分析返回的数据以执行性能监测记录,从而形成统一的全处理器的性能监测。

    基于目标机器的程序性能分析方法

    公开(公告)号:CN102981952B

    公开(公告)日:2015-05-20

    申请号:CN201210439785.3

    申请日:2012-11-06

    Abstract: 本发明提供了一种基于目标机器的程序分析方法,所述方法包括:执行待分析程序,获取待分析程序中时间热点的与性能指标相关的特征数据,所述性能指标是基于目标机器和样本程序包而选定的;获取与所述性能指标对应的性能描述标准,所述性能描述标准是针对所述目标机器和样本程序包确定的参考数据;以及比对所述特征数据和所述性能描述标准,以获得所述待分析程序针对所述目标机器的性能瓶颈。所述方法能够针对目标机器找出所述待分析程序中存在的性能瓶颈。

Patent Agency Ranking