一种芯片管理系统、方法、设备及存储介质

    公开(公告)号:CN116167437B

    公开(公告)日:2023-07-11

    申请号:CN202310427390.X

    申请日:2023-04-18

    Inventor: 王宏升 陈光

    Abstract: 本说明书公开了一种芯片管理系统、方法、设备及存储介质,可以通过对不同芯片的芯片管理程序模板进行抽象,得到芯片管理程序统一模板,从而可以在用户需要添加新的芯片的时,仅需要使用户根据芯片管理程序统一模板设计新的芯片对应的芯片管理程序模板即可,并且可以通过注册中心模块根据各芯片管理程序模板生成各芯片对应的芯片管理程序,对各芯片进行管理,从而可以避免对深度学习框架的程序代码进行大量的重写的情况发生。

    一种芯片管理系统、方法、设备及存储介质

    公开(公告)号:CN116167437A

    公开(公告)日:2023-05-26

    申请号:CN202310427390.X

    申请日:2023-04-18

    Inventor: 王宏升 陈光

    Abstract: 本说明书公开了一种芯片管理系统、方法、设备及存储介质,可以通过对不同芯片的芯片管理程序模板进行抽象,得到芯片管理程序统一模板,从而可以在用户需要添加新的芯片的时,仅需要使用户根据芯片管理程序统一模板设计新的芯片对应的芯片管理程序模板即可,并且可以通过注册中心模块根据各芯片管理程序模板生成各芯片对应的芯片管理程序,对各芯片进行管理,从而可以避免对深度学习框架的程序代码进行大量的重写的情况发生。

    一种业务执行方法、装置、存储介质及电子设备

    公开(公告)号:CN116150563A

    公开(公告)日:2023-05-23

    申请号:CN202310199501.6

    申请日:2023-02-24

    Inventor: 王宏升 陈光 林峰

    Abstract: 本说明书提供了一种业务执行方法、装置、存储介质及电子设备。在本说明书提供的业务执行方法中,响应于业务的执行请求,获取用于执行业务的目标模型,并确定目标模型中的目标网络层;根据目标网络层中用于执行矩阵乘法的特征矩阵的维度,确定目标网络层的候选计算方式,其中,不同候选计算方式对应的执行矩阵乘法运算时的循环次序不同;针对每个候选计算方式,根据特征矩阵的大小,确定目标网络层在该候选计算方式下执行矩阵乘法时,读取数据的总缓存复用率;根据各总缓存复用率,在各候选计算方式中确定目标计算方式;将目标计算方式更新为目标网络层的计算方式,并采用更新后的目标模型执行业务。

    一种基于硬件特性的数据处理的方法及装置

    公开(公告)号:CN116126750A

    公开(公告)日:2023-05-16

    申请号:CN202310199473.8

    申请日:2023-02-24

    Inventor: 王宏升 陈光 林峰

    Abstract: 本说明书公开了一种基于硬件特性的数据处理的方法及装置。首先,获取各待处理数据以及确定高速缓冲存储器中所能缓存的数据大小,待处理数据用于表示神经网络模型执行运算任务所需的数据。其次,在神经网络模型执行运算任务时,按照数据大小,对各待处理数据进行切分,得到各切分数据。而后,针对每个切分数据,将该切分数据缓存到高速缓冲存储器中,得到缓存后的切分数据,以使处理器基于数据大小对缓存后的切分数据进行运算,得到运算结果。最后,根据运算结果,进行数据处理。本方法可以提高数据处理的效率。

    一种任务执行方法、装置、存储介质及电子设备

    公开(公告)号:CN116107728A

    公开(公告)日:2023-05-12

    申请号:CN202310390935.4

    申请日:2023-04-06

    Inventor: 王宏升 陈光

    Abstract: 本说明书公开了一种任务执行方法、装置、存储介质及电子设备。所述任务执行方法包括:获取目标模型的模型数据,对模型数据进行解析,确定执行针对目标模型的计算任务时所涉及的指令类型以及指令对象,并基于指令类型以及指令对象,生成各计算指令,针对每个计算指令,根据该计算指令对应指令对象的分配信息,在预设的各计算单元中确定出执行该计算指令的至少一个目标单元,以及,生成该计算指令对应的推导指令,基于各计算指令以及各计算指令对应的推导指令,生成各物理指令,并将各物理指令发送到执行各计算指令的目标单元,以执行针对目标模型的计算任务。

    一种用于神经网络计算的数据流动方法和装置

    公开(公告)号:CN115033391B

    公开(公告)日:2022-11-11

    申请号:CN202210952808.4

    申请日:2022-08-10

    Inventor: 王宏升 陈光

    Abstract: 本发明公开了一种用于神经网络计算的数据流动方法和装置,包括以下步骤:步骤1、初始化计算图中变量的生命周期,初始化从变量的定义开始到使用结束之间的时间段为所述变量在计算图中的生命周期;步骤2、定义使用中变量流过节点的传播规则,定义计算图某节点处的变量被使用,在该节点的前驱节点产生该变量的定义,使得流过该节点的有效变量的输入集合包含该变量;本发明公开了深度学习训练系统中一种用于神经网络计算的数据流动的建模方法和装置,可以从全局作用域的视角分析出局部循环里的每个计算子图的节点所需分配的内存单元块。所述的用于神经网络计算的数据流动方法提高整个计算图的计算效率,节约时间成本。

    一种面向神经网络计算的内存优化方法和装置

    公开(公告)号:CN115269205A

    公开(公告)日:2022-11-01

    申请号:CN202211177786.5

    申请日:2022-09-27

    Inventor: 王宏升 陈光

    Abstract: 本发明公开了一种面向神经网络计算的内存优化方法和装置,包括以下步骤:步骤S1:将计算图重构为拓扑结构计算图;步骤S2:构建关于张量变量的生命周期区间;步骤S3:构建关于生命周期区间的扫描线;步骤S4:将张量变量分配到空闲寄存器;步骤S5:分配给超出寄存器需求数量的张量变量;步骤S6:将已过期的所述生命周期区间所分配的寄存器分配给超出寄存器需求数量的张量变量;步骤S7:将转移到内存中的张量变量添加回处于激活状态的所述生命周期区间并为其分配空闲寄存器。本发明优化用于神经网络计算的计算图的数据流的内存,减少数据流中张量变量所需的内存开销,降低大模型对于硬件内存资源的要求。

    一种用于计算图编译的优化方法及装置

    公开(公告)号:CN115268936A

    公开(公告)日:2022-11-01

    申请号:CN202211177796.9

    申请日:2022-09-27

    Abstract: 本发明公开了一种用于计算图编译的优化方法及装置,包括以下步骤:步骤S1:将计算图转换为中间表示;步骤S2:分析依赖关系;步骤S3:构建工作栈;步骤S4:初始化为未激活状态;步骤S5:弹出栈顶节点元素,并更新当前轮迭代输入节点集合;步骤S6:将依赖所述步骤S5的栈顶节点的元素依次添加到栈顶位置,直到工作栈清空为止;步骤S7:采用位向量实现达到不动点状态的中间表示;步骤S8:为达到不动点状态的中间表示的节点包含的有效张量变量分配寄存器。本发明提供了一种解析所述中间表示节点动态地执行至不动点状态的方法,并且优化了为所述中间表示不动点状态下各节点所包含的张量变量分配空闲寄存器的实现方法,提升计算图在运行时的执行效率。

    一种用于神经网络计算的图优化方法和装置

    公开(公告)号:CN114936099B

    公开(公告)日:2022-09-30

    申请号:CN202210874564.2

    申请日:2022-07-25

    Inventor: 王宏升 陈光

    Abstract: 本发明公开了一种用于神经网络计算的图优化方法和装置,包括以下步骤:步骤S1:转换计算图;步骤S2:分配寄存器;步骤S3:定义关于重定义变量的路由选择器;步骤S4:求解关于重定义变量的路由选择器;步骤S5:定义关于重定义变量的路由选择器插入节点的准则;步骤S6:分析关于重定义变量节点的支配边集合;步骤S7:插入关于重定义变量的路由选择器;步骤S8:重命名关于重定义变量。本发明解决了编译期计算图中包含重定义变量的节点流经多路计算流时所对应的关于重定义变量的正确定义的路由选择问题,减少数据流中张量变量所需的内存开销,降低了大模型对于硬件内存资源的要求,推动了深度神经网络模型落地应用的发展。

    深度学习框架与AI加速卡片内分布式训练适配方法和装置

    公开(公告)号:CN113918351A

    公开(公告)日:2022-01-11

    申请号:CN202111487478.8

    申请日:2021-12-08

    Abstract: 本发明公开了一种深度学习框架与AI加速卡片内分布式训练适配方法和装置,包括如下步骤:S1:深度学习框架支持新增AI加速卡片内单卡配置,其子步骤如下:S11:深度学习框架支持新硬件;S12:深度学习框架支持新硬件的设备线程;S13:深度学习框架支持新硬件的内存操作;S14:深度学习框架支持新硬件的算子核函数;S2:深度学习框架支持新增AI加速卡片内多卡配置;S3:深度学习框架支持张量切分和多卡分布;S4:深度学习框架支持新增AI加速卡片内多卡集合通信,本发明打通了深度学习框架与新增AI加速卡,并将深度学习框架源码与芯片底层软件全面对接,最大限度释放芯片的硬件能力,为端侧AI提供最强劲的算力。

Patent Agency Ranking