分布式模型训练方法、系统和相关设备

    公开(公告)号:CN118898286A

    公开(公告)日:2024-11-05

    申请号:CN202410940456.X

    申请日:2024-07-12

    Inventor: 刘圆 高达 程帅

    Abstract: 本公开提供一种分布式模型训练方法、系统和相关设备,涉及计算机与互联网技术领域。该方法包括:将训练目标模型的训练集进行拆分,获得第一训练子集,第一训练子集包括多个第一迷你子集;第一训练节点通过第一迷你子集对目标模型进行梯度计算,获得第一梯度;第一训练节点从对应的CXL内存中获取第一梯度聚合变量;第一训练节点根据第一梯度对第一梯度聚合变量进行聚合更新,并将聚合更新后的第一梯度聚合变量刷新到第一训练节点对应的CXL内存中,其中CXL内存控制第一梯度聚合变量保持全局一致性;通过第一机架中的第一梯度聚合变量对目标模型的模型参数进行更新。本实施例提供的技术方案可以高效的完成对目标模型的分布式训练。

    分布式训练的通信方法以及相关设备

    公开(公告)号:CN118612219A

    公开(公告)日:2024-09-06

    申请号:CN202410764223.9

    申请日:2024-06-13

    Inventor: 郭雪芳 程帅

    Abstract: 本公开实施例提供了一种分布式训练的通信方法以及相关设备,涉及深度学习领域。该方法包括:在执行分布式训练任务的迭代训练过程中,获得多个工作节点中的各个工作节点的目标梯度数据,通过多轮通信向多个工作节点传输各个工作节点的目标梯度数据;对于多轮通信中的每一轮通信,确定各个工作节点在每一轮通信中的通信路径,按照各个工作节点在每一轮通信中的通信路径,将各个工作节点当前所具有的目标梯度数据发送至在每一轮通信中各个工作节点对应的数据接收节点。该方法中各个工作节点在不同轮通信中能够选择合适的通信路径进行数据传输,避免选择慢的通信路径进行数据传输,从而改善尾部延迟问题。

    一种任务调度方法和装置
    3.
    发明公开

    公开(公告)号:CN117076083A

    公开(公告)日:2023-11-17

    申请号:CN202311075501.1

    申请日:2023-08-24

    Abstract: 本公开提出了一种任务调度方法和装置,涉及算力调度技术领域。其中,任务调度方法包括:获取待调度任务的任务信息、以及多个工作节点中每个工作节点的历史性能指标值;根据所述每个工作节点的历史性能指标值,利用与所述每个工作节点的类型对应的性能预测模型,确定所述每个工作节点在将来指定时间段的性能指标预测值,所述将来指定时间段包含所述待调度任务的计划执行时间段;根据每个工作节点在所述将来指定时间段的性能指标预测值、以及所述待调度任务的任务信息,利用调度模型,对所述待调度任务在所述多个工作节点之间进行调度。通过以上方法,能够改善异构节点之间的任务调度效果。

    支持RDMA的数据传输方法、装置、设备及存储介质

    公开(公告)号:CN117692394A

    公开(公告)日:2024-03-12

    申请号:CN202311767201.X

    申请日:2023-12-20

    Abstract: 本公开实施例提供了一种支持RDMA的数据传输方法及装置,包括:接收发送端发送的数据包;接收接收端发送的传输控制指令;基于传输控制指令,将存储在发送缓冲区的数据包发送给接收端;响应于发送缓冲区中存储的数据包超过第一缓冲阈值,向发送端发送暂停数据指令。该方法,通过在数据中心的近端部署的中继器进行数据传输的流量控制。一方面根据传输控制指令控制发送给接收端数据包的数据传输速率,避免造成接收端数据阻塞。另一方面根据发送缓冲区中的数据包数量发送暂停数据指令,以控制发送端停止发送数据包。由于暂停数据指令的触发位置部署在发送端近端的中继器中,避免了因长距离传输延迟所引起的额外缓冲区空间的开销。

    网络性能优化方法、装置、存储介质和电子设备

    公开(公告)号:CN117336177A

    公开(公告)日:2024-01-02

    申请号:CN202311277759.X

    申请日:2023-09-28

    Inventor: 贾冠一 程帅

    Abstract: 本公开提供了一种网络性能优化方法、网络性能优化装置、计算机存储介质和电子设备,涉及计算机技术领域。该网络性能优化方法包括:获取应用程序发送的报文数据;根据报文数据判断应用程序是否通过RDMA网卡;在应用程序通过RDMA网卡时,将应用程序的Socket API接口对应的第一协议转写为RDMA网卡对应第二协议的目标协议接口,Socket API接口对应的第一协议与所述第二协议一一对应;基于目标协议接口向RDMA网卡发送报文数据。本公开可以降低应用程序基于远程直接数据存取技术实现网络性能提升时的适配工作量和成本。

    虚拟机的资源管理方法、装置、设备及介质

    公开(公告)号:CN116700891A

    公开(公告)日:2023-09-05

    申请号:CN202310587760.6

    申请日:2023-05-23

    Inventor: 王望子 程帅

    Abstract: 本公开提供的一种虚拟机的资源管理方法、装置、设备及介质,涉及云计算技术领域,具体方法包括:获取多个虚拟机的资源信息,通过多个弱学习器训练得到的强学习器资源预测模型,对每个虚拟机在每个资源维度上的资源需求进行预测,得到预测结果,再通过每个资源维度上的最大预测资源需求量作为资源容量阈值来作为资源迁移的前置条件,不仅可以提前准确的预测需求容量,还可以减少因过度使用或资源不足导致的迁移失败的问题,可以提高虚拟机资源管理的可靠性。

    车辆重识别方法、装置、存储介质及电子设备

    公开(公告)号:CN114463707B

    公开(公告)日:2024-10-15

    申请号:CN202210124381.9

    申请日:2022-02-10

    Abstract: 本公开提供了一种车辆重识别方法、装置、存储介质及电子设备,涉及计算机视觉技术领域,用以解决相关技术中在模型训练过程中,由于标注数据缺乏导致车辆重识别结果准确率不高的问题。涉及的车辆重识别方法包括:获取未知车辆图像;基于自监督学习算法学习所述未知车辆图像的特征;使用所述未知车辆图像的特征中的部分特征以及所述部分特征的标签训练车辆重识别模型;使用所述车辆重识别模型对待检测车辆图像进行识别,得到车辆识别结果,以从所述待检测车辆图像中识别出目标车辆的图像。本公开实施例可提高车辆重识别的精度。

    异构芯片的算力调度方法、系统、装置、设备及介质

    公开(公告)号:CN118034900A

    公开(公告)日:2024-05-14

    申请号:CN202211412120.3

    申请日:2022-11-11

    Inventor: 康亚京 程帅

    Abstract: 本公开提供了一种异构芯片的算力调度方法、系统、装置、设备及介质,涉及计算机技术领域。该方法包括:计算芯片队列的计算任务进入节点之后的集群均衡度;根据集群均衡度,筛选出有剩余资源创建计算任务的node节点;根据当前芯片队列排队情况和所需资源情况,将计算任务映射到node节点的设备中。根据本公开实施例,能够分析集群实际使用资源的负载均衡度,达到集群node节点的优选。

    组合导航的校准方法、装置和系统

    公开(公告)号:CN116380119A

    公开(公告)日:2023-07-04

    申请号:CN202111600911.4

    申请日:2021-12-24

    Abstract: 本公开涉及一种组合导航的校准方法、装置和系统,涉及导航技术领域。本公开的方法包括:根据惯性导航系统的误差参数构建卡尔曼滤波器的状态方程;根据惯性导航系统输出的位置和GPS系统输出的位置之间的位置误差,以及惯性导航系统输出的速度和GPS系统输出的速度之间的速度误差,构建卡尔曼滤波器的量测方程;根据卡尔曼滤波器的状态方程和卡尔曼滤波器的量测方程,利用卡尔曼滤波器确定惯性导航系统的误差参数的估计值;根据惯性导航系统的误差参数的估计值,对惯性导航系统输出的位置和速度进行校准。

Patent Agency Ranking