分布式训练微批量数据确定方法、装置、设备及介质

    公开(公告)号:CN118709752A

    公开(公告)日:2024-09-27

    申请号:CN202410749393.X

    申请日:2024-06-11

    Inventor: 刘圆 赵继壮

    Abstract: 本公开提供了一种分布式训练微批量数据确定方法、装置、设备和介质,涉及新兴信息技术领域例如,该方法包括:基于预先确定的微批量数据大小将训练数据集划分为多个训练数据子集,以使计算相应的梯度值;接收预设数量的训练节点返回的梯度值,从各个训练节点中筛选出目标训练节点;判断预设时长内是否接收到目标训练节点返回的满足预设条件的梯度值;将接收到的全部梯度值、接收全部梯度值所耗费的总时长以及各个训练节点的模型性能参数输入至预先训练的神经网络模型,输出各个训练节点更新后的的模型性能参数,最终确定各个训练节点对应的微批量数据大小。本公开能够合理划分训练数据的微批量大小,以保证模型的性能和训练情况。

    一种任务调度方法和装置
    3.
    发明公开

    公开(公告)号:CN117076083A

    公开(公告)日:2023-11-17

    申请号:CN202311075501.1

    申请日:2023-08-24

    Abstract: 本公开提出了一种任务调度方法和装置,涉及算力调度技术领域。其中,任务调度方法包括:获取待调度任务的任务信息、以及多个工作节点中每个工作节点的历史性能指标值;根据所述每个工作节点的历史性能指标值,利用与所述每个工作节点的类型对应的性能预测模型,确定所述每个工作节点在将来指定时间段的性能指标预测值,所述将来指定时间段包含所述待调度任务的计划执行时间段;根据每个工作节点在所述将来指定时间段的性能指标预测值、以及所述待调度任务的任务信息,利用调度模型,对所述待调度任务在所述多个工作节点之间进行调度。通过以上方法,能够改善异构节点之间的任务调度效果。

    用于纠删码的编码和解码方法、装置和介质

    公开(公告)号:CN117149509A

    公开(公告)日:2023-12-01

    申请号:CN202311108190.4

    申请日:2023-08-30

    Abstract: 本公开提供了用于纠删码的编码和解码方法、装置和介质。一种用于纠删码的编码方法包括:从主存储器读取用于纠删码的编码矩阵,并将编码矩阵存储至用于图形处理单元(GPU)设备的第一存储单元;从主存储器读取用户数据分片,并将用户数据分片存储至用于GPU设备的第二存储单元;指示GPU设备进行编码计算,以得到校验数据分片;将校验数据分片写入主存储器。指示GPU设备进行编码计算包括:指示GPU设备基于来自第一存储单元的编码矩阵和来自第二存储单元的用户数据分片生成校验数据分片。本公开的实施例通过将涉及大量矩阵运算的编码/解码计算步骤放在GPU上执行,可以充分发挥GPU适于大规模并行计算的优势来提高纠删码的计算效率。

    一种数据传输的控制方法及装置、电子设备、存储介质

    公开(公告)号:CN116886623A

    公开(公告)日:2023-10-13

    申请号:CN202310869722.X

    申请日:2023-07-14

    Abstract: 本申请公开了一种数据传输的控制方法及装置、电子设备、存储介质,应用于包括交换机处理器和芯片的交换机,由芯片执行的该方法包括:获取交换机用于对外进行数据传输的传输链路当前时刻对应的网络质量参数,以及传输链路所传输数据的关联信息;基于网络质量参数和关联信息,对传输链路的拥塞情况进行预测,得到预测结果;基于预测结果生成数据传输调控信号;将数据传输调控信号发送给交换机,以使交换机基于数据传输调控信号对传输链路所传输数据进行传输控制。本申请通过另设的芯片得到数据传输调控信号,加快了数据运算效率,实现了对传输链路所传输数据的准确的传输控制。

    拥塞控制方法、装置、设备、介质和产品

    公开(公告)号:CN118555251A

    公开(公告)日:2024-08-27

    申请号:CN202411018071.4

    申请日:2024-07-26

    Abstract: 本公开提供一种拥塞控制方法、装置、设备、介质和产品,其中,拥塞控制方法包括:向网卡发送RTT测量请求,并根据RTT测量请求对应的RTT测量应答报文中的收发时间信息确定网络的拥塞状态;根据拥塞状态对应的预设传输速率算法确定新的传输速率,并将新的传输速率反馈至网卡。通过本公开实施例,解决了商用DCQCN算法对交换机水线配置强依赖的问题,大幅减少了拥塞控制方案中的超参数,针对不同业务可通过简单配置实现最佳性能,在提高了拥塞控制方案的可靠性和时效性的前提下,极大降低了拥塞控制算法的部署和调优的难度。

    拥塞控制方法、装置、设备、介质和产品

    公开(公告)号:CN118555251B

    公开(公告)日:2024-12-27

    申请号:CN202411018071.4

    申请日:2024-07-26

    Abstract: 本公开提供一种拥塞控制方法、装置、设备、介质和产品,其中,拥塞控制方法包括:向网卡发送RTT测量请求,并根据RTT测量请求对应的RTT测量应答报文中的收发时间信息确定网络的拥塞状态;根据拥塞状态对应的预设传输速率算法确定新的传输速率,并将新的传输速率反馈至网卡。通过本公开实施例,解决了商用DCQCN算法对交换机水线配置强依赖的问题,大幅减少了拥塞控制方案中的超参数,针对不同业务可通过简单配置实现最佳性能,在提高了拥塞控制方案的可靠性和时效性的前提下,极大降低了拥塞控制算法的部署和调优的难度。

    并行任务分配方法、装置、计算机设备和可读存储介质

    公开(公告)号:CN119003121A

    公开(公告)日:2024-11-22

    申请号:CN202411086119.5

    申请日:2024-08-08

    Abstract: 本申请涉及一种并行任务分配方法、装置、计算机设备和可读存储介质。方法包括:确定第一计算单元处理第一初始任务量个待处理任务的第一完成时间信息,以及第二计算单元处理第二初始任务量个待处理任务的第二完成时间信息;在第一完成时间信息和第二完成时间信息不满足并行处理条件的情况下,根据第一完成时间信息和第二完成时间信息之间的时间差,更新第一初始任务量和第二初始任务量,并返回执行确定第一完成时间信息和第二完成时间信息的操作;在第一完成时间信息和第二完成时间信息满足并行处理条件的情况下,将第一初始任务量个待处理任务分配至第一计算单元,以及将第二初始任务量个待处理任务分配至第二计算单元。

    拥塞控制算法的性能测试方法及相关设备

    公开(公告)号:CN118827473A

    公开(公告)日:2024-10-22

    申请号:CN202411000876.6

    申请日:2024-07-24

    Abstract: 本公开提供了一种拥塞控制算法的性能测试方法及相关设备,涉及网络技术领域,该方法包括:响应于性能测试的启动指示,获取配置信息,配置信息至少包括:多个节点的配置信息,节点至少包括:发送方和接收方,每个节点部署拥塞控制算法,根据配置信息向多个节点发送测试命令,以使多个节点进行打流测试,获取打流测试结果,打流测试结果至少包括:每个节点的节点带宽。通过对物理环境中的物理节点自动化发送测试命令,对部署在节点上的拥塞控制算法进行性能测试,实现自动化测试流程,可以提高测试结果的可信度和测试效率,还可以减少运维人员的工作量,以及,避免人工统计和操作带来的失误和误差。

Patent Agency Ranking