-
公开(公告)号:CN117522669B
公开(公告)日:2024-03-26
申请号:CN202410025766.9
申请日:2024-01-08
Applicant: 之江实验室
Abstract: 本说明书公开了一种图形处理器内存优化方法、装置、介质及设备,确定处理系统当前训练的各神经网络模型。针对每个图形处理器,确定当前执行的网络层输出的各张量以及各张量的张量信息。将张量信息中的生命周期未达到预设阈值的各张量,作为短时张量。针对每个短时张量,根据该短时张量的张量信息中的调用路径,判断神经网络模型的下一网络层是否需要调用该短时张量。若是,则将该短时张量存储该图形处理器的存储器中。若否,则将该短时张量发送至空闲的图形处理器中。通过将短时张量发送至空闲的图形处理器,避免了将图形处理器的短时张量存储到其他非图形处理器的存储器的问题,降低了通信开销,提高了模型训练的性能。
-
公开(公告)号:CN117149778B
公开(公告)日:2024-01-16
申请号:CN202311414028.5
申请日:2023-10-30
Applicant: 之江实验室
IPC: G06F16/22 , G06F16/2455
Abstract: 本申请涉及稀疏张量运算加速领域,特别是涉及一种稀疏张量运算加速方法、系统、计算机设备和存储介质,所述方法包括:读取两稀疏张量的压缩表示元数据信息,确定各稀疏张量中非零元素被标记为无效计算元素时所对应的另一个稀疏张量的起始非缩并维度索引和终止非缩并维度索引,并以键值对的形式存储在无效计算元素标记范围映射表中;对所述两稀疏张量进行自适应协同分块,得到所述两稀疏张量的预分块信息;基于所述无效计算元素标记范围映射表以及所述两稀疏张量的预分块信息,得到最终分块;将所述最终分块依次搬运至更内层缓存,直至完成计算。本发明减少运行时稀疏张量数据分块划分的重复性操作,进一步节省稀疏张量运算时间。
-
公开(公告)号:CN117077726B
公开(公告)日:2024-01-09
申请号:CN202311344094.X
申请日:2023-10-17
Applicant: 之江实验室
Abstract: 本申请公开了一种生成存内计算神经网络模型的方法,首先根据待构建的神经网络模型的目标任务,根据历史执行所述目标任务的任务数据作为训练样本,以及将目标任务的执行结果作为标注,之后通过对量化可微超网络的模型结构进行初始化,确定模型各节点之间数据传递顺序的有向无环图,确定架构参数以及权重参数,依该有向无环图的顺序,通过训练样本对权重参数进行调整,然后通过调整后的权重参数配置的模型,调整架构参数,得到存内运行的神经网络模型。通过权值继承,实现了可交替优化的两种参数,分别通过有监督训练和启发式学习进行调整,使得可以更为高效的学习深度神经网络架构。
-
公开(公告)号:CN117075918B
公开(公告)日:2024-01-09
申请号:CN202311328294.6
申请日:2023-10-13
Applicant: 之江实验室
Abstract: 在一种模型部署方法、装置、存储介质及电子设备中,响应于待优化模型,生成计算逻辑单元以及对应的张量程序,并确定各所述计算逻辑单元对应的类型。然后,依次确定各计算逻辑单元之后计算逻辑单元为约束单元,根据该计算逻辑单元的张量程序以及约束单元的张量程序,确定数据排布优化转换方案。最后,将该计算逻辑单元的张量程序、约束单元的张量程序以及转换方案组合,得到候选策略,根据耗时从各候选策略中选择目标策略并根据目标策略并进行模型部署。通过获取全局最优部署策略,解决了优化后各层中间表示最优结果存在冲突的情况,提高了模型部署效率。
-
公开(公告)号:CN116861149B
公开(公告)日:2024-01-09
申请号:CN202311136375.6
申请日:2023-09-05
Applicant: 之江实验室
Abstract: 题。本申请涉及一种卷积运算的优化方法、装置及处理器,处理器包括一级缓存,该方法包括:在内存中将卷积运算的输入张量重排为左矩阵,将卷积核重排为右矩阵;将所述左矩阵划分为多个加载矩阵,所述加载矩阵的尺寸基于所述一级缓存的容量确定;将所述多个加载矩阵依次从所述内存加载至所述一级缓存,与所述右矩阵执行矩阵乘计算;将所述多个加载矩阵对应的计算结果累加,得到所述卷积运算的结果,不需要增加输入张量的存储空间,解决了相关技术中存在的将(56)对比文件孙凡.卷积神经网络加速器的实现与优化.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,第2019年卷(第1期),I138-1895.Xiandong Huang等.Evaluating FFT-basedalgorithms for strided convolutions onARMv8 architectures《.PerformanceEvaluation》.2021,1-18.
-
公开(公告)号:CN117312394A
公开(公告)日:2023-12-29
申请号:CN202311481292.0
申请日:2023-11-08
Applicant: 之江实验室
IPC: G06F16/2455 , G06F16/22 , G06F18/214 , G06F18/30 , G06N3/063
Abstract: 本说明书公开了一种数据访问方法、装置、存储介质及电子设备,通过第一缓存和第二缓存分别缓存原始样本和处理样本,当接受到模型训练请求后,随机确定一个样本标识,根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时,在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回,经增强计算后确定最终增强样本,用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时,从存储器中获取一个训练样本返回。本方法在保证了训练样本选择的随机性的情况下,提高了缓存命中率,减少CPU冗余计算,并减少了对输入输出接口资源的调用,使得训练过程耗时减少,效率增高。
-
公开(公告)号:CN116860259B
公开(公告)日:2023-12-19
申请号:CN202311138278.0
申请日:2023-09-05
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练和编译器自动调优的方法、装置及设备。所述模型训练的方法包括:获取目标程序,并确定编译器对该目标程序进行编译时的各优化序列;确定出初始优化序列并生成当前样本点,以及,确定初始优化序列对所述目标程序进行编译的第一运行时间;生成邻域样本点,并确定邻域样本点对目标程序进行编译的第二运行时间;判断第一运行时间是否大于第二运行时间,若是,将邻域样本点作为当前样本点;在达到指定迭代次数后,确定运行时间小于预设时间的若干个各候选优化序列,并根据各候选优化序列构建训练样本;通过构建的训练样本对预测模型进行训练。
-
公开(公告)号:CN117195997A
公开(公告)日:2023-12-08
申请号:CN202311464150.3
申请日:2023-11-06
Applicant: 之江实验室
IPC: G06N3/08 , G06F18/214 , G06F3/06
Abstract: 本说明书公开了一种模型训练方法、装置、存储介质及电子设备,在此方法中,待训练模型部署在本地节点的计算区中,并在本地节点中部署高速缓存区以及在计算区中部署数据生成模型。在实际模型训练过程中,将训练所需要的目标数据缓存在高速缓存区中,以便计算区从高速缓存区直接进行数据读取,来进行模型训练,若没有读取到数据,则通过数据生成模型根据索引值生成的目标数据,进一步进行模型训练,并在模型训练过程中,保证模型准确度的情况下,对模型进行模型压缩,来减少模型参量。通过减少对存储区的数据访问次数以及对模型进行模型压缩,从而在一定程度上提高模型训练效率和减少存储资源浪费。
-
公开(公告)号:CN117149778A
公开(公告)日:2023-12-01
申请号:CN202311414028.5
申请日:2023-10-30
Applicant: 之江实验室
IPC: G06F16/22 , G06F16/2455
Abstract: 本申请涉及稀疏张量运算加速领域,特别是涉及一种稀疏张量运算加速方法、系统、计算机设备和存储介质,所述方法包括:读取两稀疏张量的压缩表示元数据信息,确定各稀疏张量中非零元素被标记为无效计算元素时所对应的另一个稀疏张量的起始非缩并维度索引和终止非缩并维度索引,并以键值对的形式存储在无效计算元素标记范围映射表中;对所述两稀疏张量进行自适应协同分块,得到所述两稀疏张量的预分块信息;基于所述无效计算元素标记范围映射表以及所述两稀疏张量的预分块信息,得到最终分块;将所述最终分块依次搬运至更内层缓存,直至完成计算。本发明减少运行时稀疏张量数据分块划分的重复性操作,进一步节省稀疏张量运算时间。
-
公开(公告)号:CN117057439A
公开(公告)日:2023-11-14
申请号:CN202310893300.6
申请日:2023-07-20
Applicant: 之江实验室
IPC: G06N20/00 , G06F18/24 , G06F17/14 , G06N3/0464 , G06F18/214
Abstract: 本申请涉及一种模型参数更新方法、装置、计算机设备和存储介质。所述方法包括:接收联邦学习服务端发送的针对各联邦学习客户端所共有的数据分布预测模型的参数更新指令;其中,参数更新指令携带数据分布预测模型的共享参数和特定参数;响应于参数更新指令,对共享参数和特定参数进行更新,得到更新后的共享参数和更新后的特定参数;将更新后的共享参数发送至联邦学习服务端,并将更新后的特定参数保留在本地;接收联邦学习服务端对共享参数聚合处理后发送的聚合共享参数;基于聚合共享参数和更新后的特定参数确定对应的目标共享参数和目标特定参数。采用本方法能够解决数据异质性问题,提高数据分布预测模型的准确性。
-
-
-
-
-
-
-
-
-