一种训练时长预测方法、装置、多元异构计算设备及介质

    公开(公告)号:CN116244159A

    公开(公告)日:2023-06-09

    申请号:CN202310509328.5

    申请日:2023-05-08

    Abstract: 本发明公开了一种训练时长预测方法、装置、多元异构计算设备及介质,涉及模型训练技术领域,该方法包括:获取待预测计算芯片的模型训练信息;其中,待预测计算芯片为需要完成模型训练任务的计算芯片,模型训练信息包括训练任务特征、计算芯片特征和服务器特征中的至少一项;获取待预测计算芯片对应的目标耗时预测模型;根据模型训练信息,利用目标耗时预测模型计算待预测计算芯片的单步训练时长;本发明能够利用计算芯片所要完成的模型训练任务的特征、计算芯片的动态特征和/或计算芯片所在服务器的动态特征,准确地预测计算芯片在单个训练迭代的计算耗时,提高了对计算芯片的模型训练时长预测的准确性。

    一种梯度数据的同步方法、系统、设备及存储介质

    公开(公告)号:CN115665174B

    公开(公告)日:2023-03-14

    申请号:CN202211592818.8

    申请日:2022-12-13

    Abstract: 本申请公开了一种梯度数据的同步方法、系统、设备及存储介质,应用于机器学习技术领域,包括:获取1个批次的训练样本并进行本地深度学习模型的训练,得到本地参数梯度;当自身在未组队状态下接收组队请求时将自身设置为组队状态;按照预设规则从邻居节点集合中选取出1个邻居节点,判断选取出的邻居节点当前是否处于组队状态;如果否,则与其组队;如果是,则重新选取;在将自身设置为组队状态之后,与组队节点进行梯度数据的同步,同步之后将自身恢复为未组队状态,并返回执行训练操作,直至模型训练结束。应用本申请的方案,可以有效地实现去中心化的梯度数据同步,同时降低了通信开销,提高了方案的应用范围。

    一种模型训练能耗计算方法、装置、系统及可读存储介质

    公开(公告)号:CN115495702A

    公开(公告)日:2022-12-20

    申请号:CN202211430795.0

    申请日:2022-11-16

    Abstract: 本申请涉及模型训练技术领域,公开了一种模型训练能耗计算方法、装置、系统及可读存储介质,方法包括:获取用于进行模型训练的服务器中参与模型训练的各类设备的个数,并获取服务器对应的碳电信息;采集模型训练的过程中各类设备的运行参数;根据各类设备的个数、各类设备的运行参数及碳电信息,计算模型训练对应的能耗数据。本申请公开的技术方案,通过获取用于进行模型训练的服务器中参与模型训练的各类设备的个数、服务器对应的碳电信息,采集模型训练的过程中各类设备的运行参数,根据各类设备的个数、各类设备的运行参数及碳电信息,实现快速、有效地计算模型训练对应的能耗数据,以为模型训练以及大规模计算产生的能耗评估提供技术参考。

    一种数据同步方法、装置、设备及存储介质

    公开(公告)号:CN114884908A

    公开(公告)日:2022-08-09

    申请号:CN202210468218.4

    申请日:2022-04-29

    Abstract: 本申请涉及模型训练技术领域,公开了一种数据同步方法、装置、设备及存储介质,包括:在相同种类的加速设备之间构建一级物理拓扑,在不同种类的加速设备之间构建二级物理拓扑;二级物理拓扑中各加速设备通过缓存一致性协议连接;按照一级物理拓扑通过scatter_reduce通信方式对加速设备中的待同步数据进行第一处理,按照二级物理对加速设备中第一处理后的数据进行第二处理;按照二级物理拓扑通过all_gather通信方式对加速设备中第二处理后的数据进行第三处理,并按照一级物理拓扑对加速设备中的第三处理后的数据进行第四处理。能够实现基于多种异构加速设备进行深度学习数据并行,提高硬件资源利用率和数据通信效率。

    一种图像特征提取方法、装置及电子设备和存储介质

    公开(公告)号:CN110889439B

    公开(公告)日:2022-06-17

    申请号:CN201911088673.6

    申请日:2019-11-08

    Inventor: 王丽 曹芳 郭振华

    Abstract: 本申请公开了一种图像特征提取方法、装置及一种电子设备和计算机可读存储介质,该方法包括:根据训练集的数据大小和目标网络模型中每个网络层的参数计算每个所述网络层的数据计算量;根据GPU和FPGA的基本信息分别计算所述GPU的第一算力和所述FPGA的第二算力;基于每个所述网络层的数据计算量、所述第一算力和第二算力将每个所述网络层分配至所述GPU或所述FPGA中进行计算,得到训练完成的目标网络模型;利用所述训练完成的目标网络模型进行图像特征提取。本申请提供的图像特征提取方法在训练网络模型是采用GPU与FPGA的混合架构,能够提高网络层计算的资源利用率以及网络模型训练的能效比,进而提高图像特征提取效率。

    一种图像数据处理方法、系统、电子设备及存储介质

    公开(公告)号:CN110689475A

    公开(公告)日:2020-01-14

    申请号:CN201910853884.8

    申请日:2019-09-10

    Inventor: 王丽 曹芳 郭振华

    Abstract: 本申请公开了一种图像数据处理方法,所述图像数据处理方法包括从FPGA的全局内存中加载预设数量行的待处理图像数据至本地内存;其中,所述FPGA为采用OpenCL标准的芯片;按照池化层窗口尺寸将所述待处理图像数据划分为多个区域数据;控制所述FPGA对所有所述区域数据并行执行最大池化操作得到图像数据处理结果;其中,所述最大池化操作包括前向传播操作和反向传播操作。本申请能够提高最大池化操作的处理效率。本申请还公开了一种图像数据处理系统、一种存储介质及一种电子设备,具有以上有益效果。

    基于nGraph框架实现分布式神经网络训练的方法

    公开(公告)号:CN113988287B

    公开(公告)日:2025-05-27

    申请号:CN202111161608.9

    申请日:2021-09-30

    Abstract: 本申请公开了一种基于nGraph框架实现分布式神经网络训练的方法、装置及电子设备和存储介质,该方法包括:将OpenCL标准API库和Intel IKL平台环境集成到nGraph框架中;确定神经网络训练需要的算子,在nGraph框架中添加算子对应的类定义,并在FPGA后端设备中添加算子对应的kernel实现;为集群中的每个服务器创建对应的进程;在分布式神经网络训练过程中,将神经网络训练的输入数据分发至每个服务器中,每个服务器将获取到的输入数据分发至包含的多个FPGA后端设备中。本申请实现了通过nGraph框架在FPGA后端设备中进行深度学习神经网络的分布式训练。

    异构系统中分布式任务内存分配方法、设备、介质及产品

    公开(公告)号:CN119621355B

    公开(公告)日:2025-05-13

    申请号:CN202510162976.7

    申请日:2025-02-14

    Abstract: 本发明公开了计算机技术领域内的一种异构系统中分布式任务内存分配方法、设备、介质及产品。本发明在不降低各个异构算力设备计算性能的最小访存带宽的约束下,针对参与同一分布式任务的多个异构算力设备实现了内存分配,既能保证各个异构算力设备执行分布式任务时的计算性能,又能完成内存分配,从而在异构系统中在平衡内存特性和算力设备计算能力的前提下实现了合理的内存分配,能够充分利用异构算力设备的计算性能,加速分布式任务处理效率。

    异构系统中分布式任务内存分配方法、设备、介质及产品

    公开(公告)号:CN119621355A

    公开(公告)日:2025-03-14

    申请号:CN202510162976.7

    申请日:2025-02-14

    Abstract: 本发明公开了计算机技术领域内的一种异构系统中分布式任务内存分配方法、设备、介质及产品。本发明在不降低各个异构算力设备计算性能的最小访存带宽的约束下,针对参与同一分布式任务的多个异构算力设备实现了内存分配,既能保证各个异构算力设备执行分布式任务时的计算性能,又能完成内存分配,从而在异构系统中在平衡内存特性和算力设备计算能力的前提下实现了合理的内存分配,能够充分利用异构算力设备的计算性能,加速分布式任务处理效率。

    基于分离式内存系统的内存调度方法、系统以及产品

    公开(公告)号:CN119149210B

    公开(公告)日:2025-03-14

    申请号:CN202411667145.7

    申请日:2024-11-21

    Abstract: 本发明公开了一种基于分离式内存系统的内存调度方法、系统以及产品,涉及内存调度技术领域。根据当前任务的需求参数和分离式内存系统的实际运行参数确定当前任务访问的目标内存设备,在实际部署内存设备之前,根据当前任务的执行的需求参数,实现对应不同任务的需求参数与分离式内存系统的实际运行参数初步确定当前任务待访问的目标内存设备。为了减小当前任务对应的访问时延,通过当前任务对应的目标计算加速器的历史调用次数和访问时延预估当前目标内存设备的访问代价,根据访问代价确定当前任务的调度内存设备,使每个任务对应的目标计算加速器访问的调度内存设备的访问代价较小,提高当前任务的目标计算加速器的访问执行效率。

Patent Agency Ranking