一种用于分布式训练同步阶段的自动优化方法

    公开(公告)号:CN114925826A

    公开(公告)日:2022-08-19

    申请号:CN202210553741.7

    申请日:2022-05-20

    Abstract: 本发明提供一种用于分布式训练同步阶段的自动优化方法,所述方法包括在每个回合执行如下步骤:S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表;S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略,并将自动优化策略对应的节点加入分布式训练。其中,所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表,其中,所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表,所述非激活节点是指当前回合之前未加入分布式训练的节点。

    一种用于分布式训练计算阶段的自动优化方法

    公开(公告)号:CN114911621A

    公开(公告)日:2022-08-16

    申请号:CN202210553734.7

    申请日:2022-05-20

    Abstract: 本发明提供一种用于分布式训练计算阶段的自动优化方法,所述方法包括在分布式训练的每个回合执行如下步骤:S1、以预设的最小单位负载为粒度,计算当前回合中参与分布式训练的所有节点的计算性能;S2、以计算性能最差的节点计算其对应的最大允许负载数的完成时间为限制时间,分别计算每个节点在限制时间内能够完成计算的最大负载数,以所有节点在限制时间内对应的能够完成计算的最大负载数组成负载分配策略;S3、以步骤S2中负载分配策略,分配下一回合每个计算节点的负载。其中,节点的计算性能是该节点完成预设最小单位负载计算的时间。

Patent Agency Ranking