一种梯度数据同步方法、系统、装置及介质

    公开(公告)号:CN116663639A

    公开(公告)日:2023-08-29

    申请号:CN202310945008.4

    申请日:2023-07-31

    Abstract: 本申请公开了一种梯度数据同步方法、系统、装置及介质,涉及神经网络技术领域,解决训练效率低以及模型参数陈旧的问题。该方案预先选中M个工作节点,作为触发节点;在每次迭代过程中,若存在Z个触发节点完成梯度数据计算,触发各个工作节点执行梯度数据聚合操作;根据梯度数据聚合操作得到的聚合结果更新神经网络模型的模型参数。可见,只要有Z个触发节点完成了梯度数据计算就触发各个工作节点执行梯度数据聚合,可减少等待所有加速器计算完一个批次的训练数据后才同步更新模型参数所需的时间,避免占用加速器的计算资源。此外,选择M个节点作为触发节点还可以减少模型参数陈旧性的问题,提高训练效率。

    分布式协同训练控制方法、系统、装置、设备及存储介质

    公开(公告)号:CN116644803A

    公开(公告)日:2023-08-25

    申请号:CN202310928131.5

    申请日:2023-07-27

    Abstract: 本发明涉及计算机领域,具体公开了一种分布式协同训练控制方法、系统、装置、设备及存储介质,通过计算节点存储对模型网络的当前次迭代计算中的反向传播计算得到的各层梯度数据,在反向传播计算完毕后再自对应第一层模型网络的梯度数据起依次执行对各层梯度数据的梯度数据聚合操作得到各层聚合梯度数据,在利用接收到的当前次迭代计算的各层聚合梯度数据依次更新模型网络的各层模型参数时,即随着各层模型参数的更新执行对模型网络的下一次迭代计算的前向传播计算,达到下一次迭代计算的前向传播计算和当前次迭代计算的梯度数据聚合操作同时进行的效果,缩短了相邻两次迭代计算的执行时间,进而缩短了整体训练时间,提高了分布式训练效率。

    一种训练时长预测方法、装置、多元异构计算设备及介质

    公开(公告)号:CN116244159B

    公开(公告)日:2023-08-11

    申请号:CN202310509328.5

    申请日:2023-05-08

    Abstract: 本发明公开了一种训练时长预测方法、装置、多元异构计算设备及介质,涉及模型训练技术领域,该方法包括:获取待预测计算芯片的模型训练信息;其中,待预测计算芯片为需要完成模型训练任务的计算芯片,模型训练信息包括训练任务特征、计算芯片特征和服务器特征中的至少一项;获取待预测计算芯片对应的目标耗时预测模型;根据模型训练信息,利用目标耗时预测模型计算待预测计算芯片的单步训练时长;本发明能够利用计算芯片所要完成的模型训练任务的特征、计算芯片的动态特征和/或计算芯片所在服务器的动态特征,准确地预测计算芯片在单个训练迭代的计算耗时,提高了对计算芯片的模型训练时长预测的准确性。

    一种视频预训练模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN116229332B

    公开(公告)日:2023-08-04

    申请号:CN202310501619.X

    申请日:2023-05-06

    Abstract: 本申请公开了一种视频预训练模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域,该训练方法包括:采用初始视频上下文预测模型和上下文预测数据集进行训练,得到已训练的视频上下文预测模型中的第一编码器;采用基于所述第一编码器构建的初始视频跨模态模型和跨模态数据集进行训练,得到已训练的视频跨模态模型中的第二编码器;采用基于所述第二编码器构建的初始内容识别模型和内容识别数据集进行训练,得到已训练的内容识别模型中的第三编码器;将所述第三编码器作为视频预训练模型,以利用所述视频预训练模型对视频数据进行预处理。在相同效果的情况下减少了数据集的数量,提高了对视频预训练模型进行训练的效率。

    一种资源管理方法、系统、设备及计算机可读存储介质

    公开(公告)号:CN116302554A

    公开(公告)日:2023-06-23

    申请号:CN202310316633.2

    申请日:2023-03-24

    Abstract: 本申请公开了一种资源管理方法、系统、设备及计算机可读存储介质,应用于目标主机,获取数据处理请求;基于一致性互联协议,获取目标计算架构中第一数量个资源设备的目标资源,且第一数量的值大于等于2;对目标资源进行配置,得到目标资源的配置结果;按照配置结果,通过目标资源对数据处理请求进行处理;其中,目标计算架构中的资源设备间通过一致性互联协议相连通。本申请中目标计算架构中的资源设备间通过一致性互联协议相连通,这样,目标主机获取多个资源设备的目标资源后,可以统一对目标资源进行配置,并可以按照配置结果来应用多个目标资源对数据处理请求进行处理,实现计算架构中资源设备之间的高效协同。

    一种模型训练方法、装置、设备、介质及系统

    公开(公告)号:CN115879543B

    公开(公告)日:2023-05-05

    申请号:CN202310194708.4

    申请日:2023-03-03

    Abstract: 本申请公开了计算机技术领域内的一种模型训练方法、装置、设备、介质及系统。本申请在模型迭代过程中,若根据当前迭代次数确定本次迭代需分组,则将异构计算系统内的所有计算节点划分为多个计算组,并使同一计算组内的不同计算节点互联;在每一计算组内确定控制节点,并按照环状拓扑结构连接不同控制节点;控制同一计算组内的不同计算节点以All‑Reduce策略和当前计算组适用的模型优化算法执行本次迭代任务,控制各控制节点以Ring‑All‑Reduce策略执行本次迭代任务。该方案能充分发挥计算节点的特点,提高计算节点间的通信效率和模型训练效率。本申请提供的一种模型训练装置、设备、介质及系统,同样具有上述技术效果。

Patent Agency Ranking