一种面向分布式训练的缓存加载系统、方法、装置及设备

    公开(公告)号:CN117555697B

    公开(公告)日:2024-04-05

    申请号:CN202410043642.3

    申请日:2024-01-11

    Abstract: 本说明书公开的一种面向分布式训练的缓存加载系统、方法、装置及设备中,管理节点确定各计算节点对应的数据加载任务,并将待训练模型的向无环图以及数据加载任务发送给各计算节点。然后第一子节点用于负责数据加载,先根据有向无环图确定无依赖关系的计算节点需要的数据并进行加载,再当接受到第二子节点的加载请求时,判断该数据是否被加载过,若是,将加载了该数据的第一子节点的标识发送给该第二子节点,若否,则获取待加载的数据后返回给对应的第二子节点,第二子节点根据第一子节点的返回,获取待加载数据,执行训练任务。减少了计算节点向远计算端数据源的访问,降低了远计算端的I/O口堵塞、资源抢占等状况的出现,提高了模型训练的效率。

    一种基于异构存储集群的业务执行方法、装置及电子设备

    公开(公告)号:CN117421129B

    公开(公告)日:2024-04-02

    申请号:CN202311722259.2

    申请日:2023-12-14

    Abstract: 本说明书公开了一种基于异构存储集群的业务执行方法、装置及电子设备。所述方法包括:获取各异构存储设备对应的性能指标信息以及不同业务与各性能指标之间的映射关系;在接收到业务请求后,确定待执行业务对应的目标性能指标;根据性能指标信息,在各存储设备中选取出满足目标性能指标的各存储设备,作为候选设备;针对每个候选设备,确定该候选设备当前的可用容量和负载均衡权值;根据每个候选设备对应的可用容量和负载均衡权值,在各候选设备中确定出该待执行业务对应的目标存储设备,以根据每个待执行业务对应的目标存储设备执行业务,满足不同业务的应用程序和工作负载的多样性需求。

    一种存储任务断点同步方法、装置、介质及设备

    公开(公告)号:CN117743472A

    公开(公告)日:2024-03-22

    申请号:CN202410171179.0

    申请日:2024-02-06

    Abstract: 本说明书公开了一种存储任务断点同步方法、装置、介质及设备,响应于继续执行指令,确定存储任务的任务标识和存储任务对应的布隆过滤器。根据存储任务,确定目的存储器,以及读取各待存储的数据单元的唯一标识。依次针对每个待存储的数据单元,根据该数据单元的唯一标识,以及布隆过滤器,判断该数据单元是否未存储。若是,将该数据单元存储到目的存储器,更新布隆过滤器,直至将各待存储的数据单元都存储至目的存储器为止。否则继续判断下一个数据单元是否未存储。存储任务中断后继续执行的过程中,通过更新的布隆过滤器,能够高效准确的判断待存储的数据单元是否未存储,使得存储任务中断后能够在断点处及时运行,实现了存储任务的及时完成。

    一种基于异构存储集群的业务执行方法、装置及电子设备

    公开(公告)号:CN117421129A

    公开(公告)日:2024-01-19

    申请号:CN202311722259.2

    申请日:2023-12-14

    Abstract: 本说明书公开了一种基于异构存储集群的业务执行方法、装置及电子设备。所述方法包括:获取各异构存储设备对应的性能指标信息以及不同业务与各性能指标之间的映射关系;在接收到业务请求后,确定待执行业务对应的目标性能指标;根据性能指标信息,在各存储设备中选取出满足目标性能指标的各存储设备,作为候选设备;针对每个候选设备,确定该候选设备当前的可用容量和负载均衡权值;根据每个候选设备对应的可用容量和负载均衡权值,在各候选设备中确定出该待执行业务对应的目标存储设备,以根据每个待执行业务对应的目标存储设备执行业务,满足不同业务的应用程序和工作负载的多样性需求。

    一种异构分布式存储系统在线扩容方法及装置

    公开(公告)号:CN117081931B

    公开(公告)日:2024-01-09

    申请号:CN202311344093.5

    申请日:2023-10-17

    Abstract: 本说明书公开了一种异构分布式存储系统在线扩容方法及装置,涉及存储扩容技术领域,方法包括:首先将新增存储节点组织成一个单独的分布式存储集群,注册为存储子集群,然后基于容量分配规则和用户存储需求,控制模块生成预分配结果,接着根据预分配结果,在目标存储子集群分配用户命名空间,最后命名空间模块推送配置到接入网关,接入网关配置生效,根据用户命名空间将IO操作请求分发到对应的存储子集群。本发明打破了软硬件限制,通过接入网关统一对外提供存储服务,解决了对业务的入侵问题,实现了异构存储资源整合并提供统一的存储服务的目的。

    一种存储任务断点同步方法、装置、介质及设备

    公开(公告)号:CN117743472B

    公开(公告)日:2024-05-07

    申请号:CN202410171179.0

    申请日:2024-02-06

    Abstract: 本说明书公开了一种存储任务断点同步方法、装置、介质及设备,响应于继续执行指令,确定存储任务的任务标识和存储任务对应的布隆过滤器。根据存储任务,确定目的存储器,以及读取各待存储的数据单元的唯一标识。依次针对每个待存储的数据单元,根据该数据单元的唯一标识,以及布隆过滤器,判断该数据单元是否未存储。若是,将该数据单元存储到目的存储器,更新布隆过滤器,直至将各待存储的数据单元都存储至目的存储器为止。否则继续判断下一个数据单元是否未存储。存储任务中断后继续执行的过程中,通过更新的布隆过滤器,能够高效准确的判断待存储的数据单元是否未存储,使得存储任务中断后能够在断点处及时运行,实现了存储任务的及时完成。

    一种面向分布式训练的缓存加载系统、方法、装置及设备

    公开(公告)号:CN117555697A

    公开(公告)日:2024-02-13

    申请号:CN202410043642.3

    申请日:2024-01-11

    Abstract: 本说明书公开的一种面向分布式训练的缓存加载系统、方法、装置及设备中,管理节点确定各计算节点对应的数据加载任务,并将待训练模型的向无环图以及数据加载任务发送给各计算节点。然后第一子节点用于负责数据加载,先根据有向无环图确定无依赖关系的计算节点需要的数据并进行加载,再当接受到第二子节点的加载请求时,判断该数据是否被加载过,若是,将加载了该数据的第一子节点的标识发送给该第二子节点,若否,则获取待加载的数据后返回给对应的第二子节点,第二子节点根据第一子节点的返回,获取待加载数据,执行训练任务。减少了计算节点向远计算端数据源的访问,降低了远计算端的I/O口堵塞、资源抢占等状况的出现,提高了模型训练的效率。

    一种基于构建出的数据编排策略生成模型的业务执行方法

    公开(公告)号:CN117407124B

    公开(公告)日:2024-03-12

    申请号:CN202311712642.X

    申请日:2023-12-13

    Abstract: 本说明书公开了一种基于构建出的数据编排策略生成模型的业务执行方法,通过获取各存储设备对应的设备参数以及各存储设备中存储的各数据的访问信息,而后将获取到的信息输入到预先构建出的数据编排策略生成模型,得到针对各数据的数据编排策略。通过得到的针对各数据的数据编排策略,确定出各数据的转移情况以及需要被转移的数据需要转移到的存储设备,进而对各数据进行转移,以通过转移后的各数据,执行目标业务。通过预先构建出的数据编排策略生成模型生成的数据编排策略对各存储设备上存储的数据进行整理,通过更合理的空间分配,增加了对各存储设备的性能的利用率,提高了用户对云存储集群上数据的访问效率。

    一种基于构建出的数据编排策略生成模型的业务执行方法

    公开(公告)号:CN117407124A

    公开(公告)日:2024-01-16

    申请号:CN202311712642.X

    申请日:2023-12-13

    Abstract: 本说明书公开了一种基于构建出的数据编排策略生成模型的业务执行方法,通过获取各存储设备对应的设备参数以及各存储设备中存储的各数据的访问信息,而后将获取到的信息输入到预先构建出的数据编排策略生成模型,得到针对各数据的数据编排策略。通过得到的针对各数据的数据编排策略,确定出各数据的转移情况以及需要被转移的数据需要转移到的存储设备,进而对各数据进行转移,以通过转移后的各数据,执行目标业务。通过预先构建出的数据编排策略生成模型生成的数据编排策略对各存储设备上存储的数据进行整理,通过更合理的空间分配,增加了对各存储设备的性能的利用率,提高了用户对云存储集群上数据的访问效率。

    一种分布式存储集群的故障存储节点的处理方法

    公开(公告)号:CN116743550B

    公开(公告)日:2023-12-29

    申请号:CN202311010096.5

    申请日:2023-08-11

    Abstract: 本说明书公开了一种分布式存储集群的故障存储节点的处理方法,存储节点包括一个主服务节点及至少一个备用服务节点,且主服务节点及备用服务节点访问同一存储设备,主服务节点对自身进行心跳检测,并获取心跳检测结果,将所述心跳检测结果写入存储设备,根据心跳检测结果,判断主服务节点自身是否出现异常,若是,则停用主服务节点自身提供的服务,以使备用服务节点根据存储设备中写入的心跳检测结果,确定主服务节点异常时,替换主服务节点,作为更新后的主服务节点提供服务。本方法通过当主服务节点出现故障时,使用备用服务节点替换该主

Patent Agency Ranking