-
公开(公告)号:CN117522669B
公开(公告)日:2024-03-26
申请号:CN202410025766.9
申请日:2024-01-08
Applicant: 之江实验室
Abstract: 本说明书公开了一种图形处理器内存优化方法、装置、介质及设备,确定处理系统当前训练的各神经网络模型。针对每个图形处理器,确定当前执行的网络层输出的各张量以及各张量的张量信息。将张量信息中的生命周期未达到预设阈值的各张量,作为短时张量。针对每个短时张量,根据该短时张量的张量信息中的调用路径,判断神经网络模型的下一网络层是否需要调用该短时张量。若是,则将该短时张量存储该图形处理器的存储器中。若否,则将该短时张量发送至空闲的图形处理器中。通过将短时张量发送至空闲的图形处理器,避免了将图形处理器的短时张量存储到其他非图形处理器的存储器的问题,降低了通信开销,提高了模型训练的性能。
-
公开(公告)号:CN117149778B
公开(公告)日:2024-01-16
申请号:CN202311414028.5
申请日:2023-10-30
Applicant: 之江实验室
IPC: G06F16/22 , G06F16/2455
Abstract: 本申请涉及稀疏张量运算加速领域,特别是涉及一种稀疏张量运算加速方法、系统、计算机设备和存储介质,所述方法包括:读取两稀疏张量的压缩表示元数据信息,确定各稀疏张量中非零元素被标记为无效计算元素时所对应的另一个稀疏张量的起始非缩并维度索引和终止非缩并维度索引,并以键值对的形式存储在无效计算元素标记范围映射表中;对所述两稀疏张量进行自适应协同分块,得到所述两稀疏张量的预分块信息;基于所述无效计算元素标记范围映射表以及所述两稀疏张量的预分块信息,得到最终分块;将所述最终分块依次搬运至更内层缓存,直至完成计算。本发明减少运行时稀疏张量数据分块划分的重复性操作,进一步节省稀疏张量运算时间。
-
公开(公告)号:CN117077726B
公开(公告)日:2024-01-09
申请号:CN202311344094.X
申请日:2023-10-17
Applicant: 之江实验室
Abstract: 本申请公开了一种生成存内计算神经网络模型的方法,首先根据待构建的神经网络模型的目标任务,根据历史执行所述目标任务的任务数据作为训练样本,以及将目标任务的执行结果作为标注,之后通过对量化可微超网络的模型结构进行初始化,确定模型各节点之间数据传递顺序的有向无环图,确定架构参数以及权重参数,依该有向无环图的顺序,通过训练样本对权重参数进行调整,然后通过调整后的权重参数配置的模型,调整架构参数,得到存内运行的神经网络模型。通过权值继承,实现了可交替优化的两种参数,分别通过有监督训练和启发式学习进行调整,使得可以更为高效的学习深度神经网络架构。
-
公开(公告)号:CN117075918B
公开(公告)日:2024-01-09
申请号:CN202311328294.6
申请日:2023-10-13
Applicant: 之江实验室
Abstract: 在一种模型部署方法、装置、存储介质及电子设备中,响应于待优化模型,生成计算逻辑单元以及对应的张量程序,并确定各所述计算逻辑单元对应的类型。然后,依次确定各计算逻辑单元之后计算逻辑单元为约束单元,根据该计算逻辑单元的张量程序以及约束单元的张量程序,确定数据排布优化转换方案。最后,将该计算逻辑单元的张量程序、约束单元的张量程序以及转换方案组合,得到候选策略,根据耗时从各候选策略中选择目标策略并根据目标策略并进行模型部署。通过获取全局最优部署策略,解决了优化后各层中间表示最优结果存在冲突的情况,提高了模型部署效率。
-
公开(公告)号:CN116992875B
公开(公告)日:2024-01-09
申请号:CN202311263225.1
申请日:2023-09-27
Applicant: 之江实验室
IPC: G06F40/289 , G06F40/30 , G06N20/00
Abstract: 本申请涉及一种文本生成方法、装置、计算机设备和存储介质。所述方法包括:基于关键词数据集训练初始文本生成模型,所述关键词数据集包括参考关键词以及参考文本,将所述参考关键词输入所述初始文本生成模型,得到初始模型生成文本,将所述初始模型生成文本以及初始拼接文本作为关键词中文对比数据集,基于所述关键词中文对比数据集和标准中文对比数据集训练文本生成奖励模型,基于所述初始文本生成模型和文本生成奖励模型确定目标文本生成模型,将候选关键词输入所述目标文本生成模型,得到目标生成文本。不仅保证了关键词一定出现在生成文本中,还提高了生成文本的语义准确性。
-
公开(公告)号:CN116992820B
公开(公告)日:2024-01-09
申请号:CN202311260288.1
申请日:2023-09-27
Applicant: 之江实验室
IPC: G06F30/398 , G06F30/394 , G06F115/12
Abstract: 本申请涉及一种基于芯粒集成的可扩展智能计算芯片结构,其中,芯片结构包括:所述芯片结构包括中间介质层以及堆叠在所述中间介质层上的I/O芯粒、内存接口芯粒、RISC‑V控制芯粒以及至少一个计算芯粒堆叠组,并基于芯粒集成技术实现各功能芯粒的互连,本发明能够根据算力需求,配置计算芯粒堆叠组内部的计算核心数量,也可以配置计算芯粒堆叠组的数量,以配合其他功能芯粒,灵活地搭建智能计算芯片系统,具有高度可扩展性,各个功能芯粒可以不具备完整的功能,可以只具备实现特定功能的能力,各芯粒按照设计要求,进行灵活配置,满足针对不同场景的定制化需求,最大程度实现智能计算芯片的柔性定制。
-
公开(公告)号:CN116991986B
公开(公告)日:2024-01-09
申请号:CN202311269260.4
申请日:2023-09-28
Applicant: 之江实验室
IPC: G06F16/33 , G06F16/35 , G06F18/214 , G06F18/23213
Abstract: 本申请涉及一种语言模型轻量化方法、装置、计算机设备和存储介质。所述方法包括:对初始语言模型的注意力层的可学习参数进行聚类,得到可学习参数的分区;对各个分区进行组合,得到初始语言模型的所有裁剪方式;基于初始语言模型的注意力层的各个功能在各个裁剪方式下的波动率,得到各个功能的对应分区;剔除或量化与待处理的任务所对应的功能相关性低的可学习参数,得到待训练的语言模型的可学习参数;基于待训练的语言模型的可学习参数,利用梯度下降法对可学习参数进行训练,直到收敛,得到完备的轻量化语言模型。采用本方法能够解决了现有的语言模型无法利用较少的计算资源来实现高精度的任务处理的问题。
-
公开(公告)号:CN116861149B
公开(公告)日:2024-01-09
申请号:CN202311136375.6
申请日:2023-09-05
Applicant: 之江实验室
Abstract: 题。本申请涉及一种卷积运算的优化方法、装置及处理器,处理器包括一级缓存,该方法包括:在内存中将卷积运算的输入张量重排为左矩阵,将卷积核重排为右矩阵;将所述左矩阵划分为多个加载矩阵,所述加载矩阵的尺寸基于所述一级缓存的容量确定;将所述多个加载矩阵依次从所述内存加载至所述一级缓存,与所述右矩阵执行矩阵乘计算;将所述多个加载矩阵对应的计算结果累加,得到所述卷积运算的结果,不需要增加输入张量的存储空间,解决了相关技术中存在的将(56)对比文件孙凡.卷积神经网络加速器的实现与优化.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,第2019年卷(第1期),I138-1895.Xiandong Huang等.Evaluating FFT-basedalgorithms for strided convolutions onARMv8 architectures《.PerformanceEvaluation》.2021,1-18.
-
公开(公告)号:CN117312394A
公开(公告)日:2023-12-29
申请号:CN202311481292.0
申请日:2023-11-08
Applicant: 之江实验室
IPC: G06F16/2455 , G06F16/22 , G06F18/214 , G06F18/30 , G06N3/063
Abstract: 本说明书公开了一种数据访问方法、装置、存储介质及电子设备,通过第一缓存和第二缓存分别缓存原始样本和处理样本,当接受到模型训练请求后,随机确定一个样本标识,根据样本标识在第一缓存和第二缓存中寻找该样本标识对应的训练样本。若第一缓存和第二缓存均未被命中时,在第一缓存和第二缓存中确定未被命中过的训练样本中选择一个并返回,经增强计算后确定最终增强样本,用于模型训练。若第一缓存和第二缓存中的训练样本均被命中时,从存储器中获取一个训练样本返回。本方法在保证了训练样本选择的随机性的情况下,提高了缓存命中率,减少CPU冗余计算,并减少了对输入输出接口资源的调用,使得训练过程耗时减少,效率增高。
-
公开(公告)号:CN116860259B
公开(公告)日:2023-12-19
申请号:CN202311138278.0
申请日:2023-09-05
Applicant: 之江实验室
Abstract: 本说明书公开了一种模型训练和编译器自动调优的方法、装置及设备。所述模型训练的方法包括:获取目标程序,并确定编译器对该目标程序进行编译时的各优化序列;确定出初始优化序列并生成当前样本点,以及,确定初始优化序列对所述目标程序进行编译的第一运行时间;生成邻域样本点,并确定邻域样本点对目标程序进行编译的第二运行时间;判断第一运行时间是否大于第二运行时间,若是,将邻域样本点作为当前样本点;在达到指定迭代次数后,确定运行时间小于预设时间的若干个各候选优化序列,并根据各候选优化序列构建训练样本;通过构建的训练样本对预测模型进行训练。
-
-
-
-
-
-
-
-
-