通信任务处理方法、系统、设备、集群及可读存储介质

    公开(公告)号:CN117155928B

    公开(公告)日:2024-02-09

    申请号:CN202311423755.8

    申请日:2023-10-31

    Abstract: 本发明公开了一种通信任务处理方法、系统、设备、集群及可读存储介质,涉及分布式集群领域,为解决通信策略浪费节点内带宽的问题,该方法包括根据预设模型在分布式集群的各个设备上的部署策略,确定分布式集群中的发送节点和接收节点;当存在一个或多个通信任务,将各个通信任务一一对应分配给各个发送设备,对通信任务对应的任务数据进行划分得到多个分区数据,控制通信任务对应的发送设备将多个分区数据依次发送至一个接收节点;针对每一接收节点,控制接收节点对其接收到的分区数据在自身节点内的各个设备中进行数据同步,并将分区数据发送给未接收到分区数据的其他接收节点。本发明能够充分利用节点内的带宽,提升分布式集群的资源利用率。

    一种梯度数据同步方法、系统、电子设备及可读存储介质

    公开(公告)号:CN116962438B

    公开(公告)日:2024-01-23

    申请号:CN202311220016.9

    申请日:2023-09-21

    Abstract: 本发明公开了一种梯度数据同步方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决特定逻辑拓扑的方案无法在随机网络中取得好的数据同步性能的问题,该方法包括:获取分布式训练集群的物理拓扑关系及当前数据同步算法对应的逻辑拓扑关系;将物理拓扑关系中的各物理拓扑节点一一映射到逻辑拓扑关系中的各逻辑拓扑节点,得到至少一个映射拓扑关系;计算当前数据同步算法基于每一映射拓扑关系进行梯度数据同步时的通信开销,将通信开销最小的映射拓扑关系确定为最优映射拓扑关系;基于最优映射拓扑关系和当前数据同步算法进行梯度数据同步。本发明能够提高任意一种随机网络中的梯度数据同步通信的效率,提高网络带宽利用率。

    面向异构计算系统的故障节点切换方法、装置和设备

    公开(公告)号:CN116701043B

    公开(公告)日:2024-01-12

    申请号:CN202310974735.3

    申请日:2023-08-04

    Abstract: 本发明涉及多元异构计算技术领域,公开了面向异构计算系统的故障节点切换方法、装置和设备,当检测到存活信息异常的故障节点时,收集网络带宽信息;根据存活信息和任务运行状态,确定出可用计算节点。依据各可用计算节点的参数量、计算耗时以及网络带宽信息,确定出各可用计算节点部署故障节点的分布式训练后的迭代耗时。基于迭代耗时、峰值算力以及平均耗时,从各可用计算节点中选取出替换节点,保证了在尽量不浪费计算资源并且尽量不影响计算效率的同时,选择出最优的替换节点;将故障节点所对应的训练模型和参数下发至替换节点,向替换节点部署故障节点所属的通信环和环连接顺序,使得替换节点代替故障节点工作,保证了训练任务的继续运行。

    内存扩展方法、装置、系统、电子设备及可读存储介质

    公开(公告)号:CN116680206B

    公开(公告)日:2024-01-12

    申请号:CN202310974608.3

    申请日:2023-08-04

    Abstract: 本发明公开了一种内存扩展方法、装置、系统、电子设备及可读存储介质,涉及大数据技术领域,旨在解决传统技术中单节点无法满足大规模数据计算的内存需要的问题,所述内存扩展方法应用于内存池地址管理服务器,包括接收内存请求节点发送的内存扩展请求;根据所述内存扩展请求确定其他各内存节点的远程可扩展内存容量;利用各所述远程可扩展内存容量为所述内存请求节点进行内存扩展。应用本技术方案,实现了利用其他各个内存节点为内存请求节点提供远程内存服务,进而实现了单节点的内存扩展,可以有效满足该单节点内大规模数据计算的内存需要。

    一种多元异构算力设备调度方法、装置、设备及存储介质

    公开(公告)号:CN116700934B

    公开(公告)日:2023-11-07

    申请号:CN202310974724.5

    申请日:2023-08-04

    Abstract: 本发明公开了一种多元异构算力设备调度方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取多元异构算力设备对应的算子级算力表;所述算子级算力表用于表征算子在不同类型的算力设备上的性能高低;根据所述算子级算力表通过两级聚簇方式将数据处理模型相关的算子部署到相应的算力设备上,以得到数据处理模型与多元异构设备的映射关系;根据所述数据处理模型与多元异构设备的映射关系进行多元异构算力设备调度。能够最大限度的利用各底层硬件资源,能够有效提升高通量数据处理模型的处理效率,提升数据处理的性能。

    一种异构内存池并发访问方法、装置、设备及存储介质

    公开(公告)号:CN116700995B

    公开(公告)日:2023-11-03

    申请号:CN202310967987.3

    申请日:2023-08-03

    Abstract: 本发明公开了一种异构内存池并发访问方法、装置、设备及存储介质,涉及内存访问技术领域。该方法包括:获取数据处理模型相关的输入数据,并对所述输入数据进行拆分得到对应的数据块;将所述数据处理模型相关的模型参数存储至动态随机存取内存,并将所述数据块存储至持久性内存;根据所述持久性内存中每个所述输入数据以及所述输入数据对应的数据块,构建二层索引;获取至少两个数据处理任务的读取请求,根据所述读取请求和所述二层索引并行访问所述持久性内存,以从所述持久性内存中读取目标数据块至所述动态随机存取内存,以便根据所述目标数据块和所述模型参数执行数据处理。能够高效的利用异构内存,提升内存的并发访存效率。

    一种图像处理方法、装置、系统、设备及计算机存储介质

    公开(公告)号:CN116681973B

    公开(公告)日:2023-11-03

    申请号:CN202310967935.6

    申请日:2023-08-03

    Abstract: 本发明公开了一种图像处理方法、装置、系统、设备及计算机存储介质,涉及图像处理技术领域,应用于目标设备,对分配得到的图像处理子神经网络模型进行当前轮的训练;获取当前轮的局部激活矩阵、局部梯度矩阵;对目标设备的局部梯度矩阵和其他设备的局部梯度矩阵进行全局规约操作,得到全局梯度矩阵;将目标设备的局部激活矩阵和全局梯度矩阵进行对称拆分并运算来生成目标设备的局部梯度配置;传输局部梯度配置,以基于局部梯度配置生成当前轮的全局参数;若不结束训练,则基于当前轮的全局参数进行下一轮的训练;若结束训练,则结束。模型训练中只传输局部梯度配置,降低了数据传输量,提高了图像处理效率。

    一种内存页面管理方法、系统、装置、设备及计算机介质

    公开(公告)号:CN116644006B

    公开(公告)日:2023-11-03

    申请号:CN202310928102.9

    申请日:2023-07-27

    Abstract: 本发明公开了一种内存页面管理方法、系统、装置、设备及计算机介质,涉及内存管理技术领域,获取待访问数据的目标虚拟地址;基于目标虚拟地址在地址转换高速缓存中进行物理地址查找;若在地址转换高速缓存中查找到对应的待访问物理地址,则从待访问物理地址中读取待访问的目标数据;若未在地址转换高速缓存中查找到待访问物理地址,则基于目标虚拟地址在统一编址的多组页表中并行进行物理地址查找,若查找到待访问物理地址,则从待访问物理地址中读取待访问的目标数据;其中,本地内存包括目标节点中的内存,其他内存包括目标节点之外的其他节点中的内存。扩大了目标处理器所能应用的内存,提高了处理器工作负载的效率和性能。

Patent Agency Ranking