一种并行训练中的节点通信方法、存储介质、设备

    公开(公告)号:CN117035123B

    公开(公告)日:2024-01-09

    申请号:CN202311298503.7

    申请日:2023-10-09

    Abstract: 本说明书公开了一种并行训练中的节点通信方法、存储介质、设备,所述方法应用于模型并行训练,所述模型被切分为不同的运算模块,各运算模块分别部署于不同的计算节点中,针对任一计算节点,该方法包括:根据训练样本及部署于该计算节点上的运算模块,得到待同步激活值;根据该待同步激活值与预存的输出激活值,得到输出激活值增量;对该输出激活值增量进行量化,得到量化激活值增量;将该量化激活值增量同步给其他计算节点。所述方法能够加速通信、减小对网络通信的要求,提升模型的训练性能。(56)对比文件王国生.基于忆阻器的脉冲神经网络关键技术研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2022,第2022年卷(第4期),I135-377.Richard Liaw等.Tune: A ResearchPlatform for Distributed Model Selectionand Training《.Arxiv》.2018,1-8.Dominic Masters等.Revisiting SmallBatch Training for Deep Neural Networks.《Arxiv》.2018,1-18.

    基于参数计算和通信调度的分布式训练加速方法和系统

    公开(公告)号:CN116258197B

    公开(公告)日:2023-09-08

    申请号:CN202310545694.6

    申请日:2023-05-16

    Abstract: 基于参数计算和通信调度的分布式训练加速方法,包括:根据反向传播算法各层梯度之间不存在依赖关系的特点,通过调整梯度计算顺序,优先计算模型靠前层的梯度,从而提早梯度的传输时间,使得下轮该层的前向传播过程能够更早开始;对于梯度传输过程,通过动态枚举梯度拆分或融合阈值,并结合实时运行情况来选择性能最优的方案。还包括一种基于参数计算和通信调度的分布式训练加速系统。本发明增加了计算和通信之间的覆盖度,提升了训练性能,且实现上简单灵活,能够快速适配不同的模型及训练环境。

    一种散热系统的控制方法、装置、存储介质及电子设备

    公开(公告)号:CN116225192B

    公开(公告)日:2023-08-01

    申请号:CN202310509059.2

    申请日:2023-05-08

    Abstract: 本说明书公开了一种散热系统的控制方法、装置、存储介质及电子设备,本说明书实施例先根据历史上散热系统对计算集群散热时的各历史记录中确定出用于控制散热的各策略组合,针对每个策略组合,对各历史记录进行处理,确定在该策略组合下特征向量涉及的至少一个特征维度所对应的特征值范围,作为该策略组合的适用条件。根据每个策略组合的适用条件,构建模型,并通过模型输出的目标策略组合控制散热系统。在此方法中,通过对各历史记录进行分析,确定出采用每个策略组合所适用的条件。当需要控制散热系统时,将当前散热系统和计算集群的状态信息与各条件进行匹配,以确定出匹配上的条件所对应的目标策略组合,以控制散热系统。

    面向深度学习的分布式计算系统的作业调度方法和装置

    公开(公告)号:CN116755893B

    公开(公告)日:2023-11-17

    申请号:CN202311056655.6

    申请日:2023-08-22

    Abstract: 面向深度学习的分布式计算系统的作业调度方法和装置,包括:获取用户输入的作业信息,并存储在数据库中,作业信息包括作业优先级等,并根据作业信息维护一个作业优先级队列;获取集群中各节点的缓存信息;响应于接收到发起作业执行的请求,作业执行根据所述的优先级队列先后顺序执行,将所述作业调度到相应主机节点上执行,执行的结果存储到数据库中;响应于接收到模型更新作业的请求,在所述数据库中查询所述作业所需的数据,计算作业剩余结束时间,并将计算结果保存到数据库中;响应与接收到更新所述队列请求,在所述数据库中查询所需的数据,并根据所述数据更新所述队列。本发明较少依赖用户输入信息,有效提高作业执行时间预测精度。

    样本数据缓存方法、系统、计算机设备和存储介质

    公开(公告)号:CN116737607A

    公开(公告)日:2023-09-12

    申请号:CN202311029639.8

    申请日:2023-08-16

    Abstract: 本申请涉及一种样本数据缓存方法、系统、计算机设备和存储介质。所述方法包括:获取用于训练的样本数据列表;若缓存区域的解码样本数据集中不存在与样本数据列表中第一样本数据匹配的解码样本数据,则从解码样本数据集中确定备选解码样本数据;若第一样本数据的重要度与备选解码样本数据的重要度满足预设条件且第一样本数据的解码资源消耗大于备选解码样本数据的解码资源消耗,则对第一样本数据进行解码处理,得到对应的目标解码样本数据;根据目标解码样本数据对缓存区域的解码样本数据集进行更新。采用本方法减少冗余的IO和考虑了数据解码本身的资源消耗,缩短了整体的训练时长,进而提高了训练效率。

    一种计算设备散热的方法、装置、存储介质及电子设备

    公开(公告)号:CN116661574A

    公开(公告)日:2023-08-29

    申请号:CN202310860078.X

    申请日:2023-07-13

    Abstract: 本说明书公开了一种计算设备散热的方法、装置、存储介质及电子设备,本方法通过确定各时刻的计算设备的芯片的特征以及计算设备的散热单元中冷却介质的特征确定训练样本,并获取散热单元的控制指令作为训练样本的标注,然后针对每个特征维度,根据该维度的特征对训练样本进行排序以确定该维度的样本序列,再确定标注相同且连续的各训练样本组成的待选样本组,并确定包含训练样本数量不小于预设数量的待选样本组作为目标样本组,根据各目标样本组以及各目标样本组对应的标注确定控制规则,进一步对计算设备进行散热控制。本方法通过对历史上控制指令、芯片特征以及散热单元中冷却介质的特征的学习生成控制规则,使计算设备可以自行进行散热控制。

    文本分类方法、装置、计算机设备以及存储介质

    公开(公告)号:CN117009534B

    公开(公告)日:2024-02-13

    申请号:CN202311281379.3

    申请日:2023-10-07

    Abstract: 本申请涉及一种文本分类方法、装置、计算机设备以及存储介质。所述方法包括:对文本分类数据集进行分词处理,确定目标语义单元序列;根据目标语义单元序列构建样本数据集;将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对所述学生模型进行参数调整,确定文本分类模型;将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。上述方法提高了文本分类的准确性。

Patent Agency Ranking