一种模型数据的管理方法、装置、存储介质及电子设备

    公开(公告)号:CN118377436A

    公开(公告)日:2024-07-23

    申请号:CN202410821445.X

    申请日:2024-06-24

    Abstract: 本说明书公开了一种模型数据的管理方法、装置、存储介质及电子设备。所述模型数据的管理方法包括:获取待存储的模型数据,并按照预设的数据页存储空间,将模型数据划分为若干个第一数据页;基于当前时刻生成的密钥,对每个第一数据页进行加密,得到各加密数据页,并根据各加密数据页生成的散列值对密钥进行加密,得到密钥数据页;构建包含各加密数据页和密钥数据页的数据条,并进行冗余编码,得到至少两个冗余数据页;将数据条中的各数据页和各冗余数据页写入存储设备,并对存储设备中存储的数据进行读取、恢复、更新、删除等数据管理。本方案有效避免了数据泄露以及损坏的风险,提高了数据的安全性。

    一种分布式深度学习缓存数据存储的方法和装置

    公开(公告)号:CN118642661A

    公开(公告)日:2024-09-13

    申请号:CN202411092481.3

    申请日:2024-08-09

    Abstract: 本发明公开了一种分布式深度学习缓存数据存储的方法和装置,其方法包括:使用细粒度的缓存数据布局方法,充分利用下一周期的随机访问序列指导数据在缓存节点的布局,然后以异步方式动态地将每个样本数据精确迁移到目标缓存节点,并将每个训练进程的数据摄取请求动态调度到目标缓存节点,使得任一时间段内各缓存节点收到的数据摄取请求数目都是相当的,从而保证每个缓存节点上的存储、网络等资源都能充分利用,当模型训练任务提升数据载入的并发度时,缓存数据摄取的并发度也相应提升,显著加快模型训练任务摄取数据的速度。

    一种数据存储方法、装置、存储介质及电子设备

    公开(公告)号:CN118394282B

    公开(公告)日:2024-08-30

    申请号:CN202410849941.6

    申请日:2024-06-27

    Abstract: 本说明书公开了一种数据存储方法、装置、存储介质及电子设备。所述数据存储方法包括:获取各待存储的数据;根据每个数据所占用的存储空间,对各数据进行排序,并基于排序结果确定每个数据对应的数据编号,将存储设备的存储空间划分为若干个簇;针对每个数据,将该数据存储在与该数据所占用存储空间相匹配的块中;针对每个簇,根据该簇中第一个块所存储的数据对应的数据编号、该簇中最后一个块所存储的数据对应的数据编号、第一个块对应的存储地址以及该簇中块的大小,生成该簇的索引信息并存储。通过本方案所提供的数据存储方法可以在数据读取时极大的提高访问效率,进一步提升业务效率。

    一种基于分布式深度学习缓存系统的通讯方法和装置

    公开(公告)号:CN117424827A

    公开(公告)日:2024-01-19

    申请号:CN202311337191.6

    申请日:2023-10-16

    Abstract: 一种基于分布式深度学习缓存系统的通讯方法和装置,其方法包括:1)初始化应用的软硬件环境:初始化分布式深度学习缓存系统和装置,每个计算节点启动一个服务端管理本地缓存空间;初始化深度学习训练任务,每个节点启动若干客户端;2)客户端与服务端两两建立的网络连接,服务端为每个与其连接的客户端创建一个服务线程;3)在每个训练周期,服务端的每个服务线程只管向网络连接推送样本,客户端自主选择网络连接拉取样本,预处理后发给模型进行训练;4)在用户输入数据上应用模型。本发明能缩短分布式深度学习缓存系统和装置的网络通讯路径,提高网络带宽的利用率。

    适用于分布式深度学习训练预取缓存管理的方法和装置

    公开(公告)号:CN116501696B

    公开(公告)日:2023-09-01

    申请号:CN202310790835.0

    申请日:2023-06-30

    Inventor: 孔丽娟 梅飞 刘鹏

    Abstract: 本发明公开了一种适用于分布式深度学习训练预取缓存管理的方法和装置,包括:深度学习任务初始化时,初始化预取缓存空间;在深度学习训练任务每个轮次训练开始前,生成轮次的洗牌序列,按照该洗牌序列构建缓存索引;在深度学习训练任务进行训练时,根据缓存索引,从预取缓存空间中获取数据,若缓存未命中,则以存储节点为划分依据,到分布式存储中进行批量预取;在预取缓存空间已用容量达到指定阈值时启动缓存淘汰,淘汰掉缓存命中的数据。该方法和装置以存储节点为划分依据进行批量预取,减少了节点之间的通信次数,提高了通信效率,同时,对缓存命中的数据进行淘汰,使得缓存中都是即将命中的数据,提高了缓存命中率。

    一种深度学习训练数据集快速载入临时缓存方法和装置

    公开(公告)号:CN116136838B

    公开(公告)日:2023-07-25

    申请号:CN202310420302.3

    申请日:2023-04-19

    Inventor: 孔丽娟 梅飞 刘鹏

    Abstract: 本发明公开了一种深度学习训练数据集快速载入临时缓存方法和装置,该方法用于使用临时缓存对深度学习训练进行加速时,提升数据从远端共享存储载入本地高速存储模块的性能。本发明核心思想是根据共享存储IO特性以及计算节点并发规模,将数据集样本预先组织成合适大小的文件,以解决载入时的元数据热点问题,同时挖掘共享存储的大IO单元优势和高并发访问优势。方法包括三个模块:样本聚合模块,用于在共享存储中把原始样本文件重新组织成适合高速载入的文件;载入模块,用于在训练的初始化阶段把共享存储中经过重新组织的数据集文件加载到临时缓存;样本读取模块,用于在训练过程中从载入临时缓存的数据集中识别并读取训练样本。

    一种模型数据的管理方法、装置、存储介质及电子设备

    公开(公告)号:CN118377436B

    公开(公告)日:2024-09-13

    申请号:CN202410821445.X

    申请日:2024-06-24

    Abstract: 本说明书公开了一种模型数据的管理方法、装置、存储介质及电子设备。所述模型数据的管理方法包括:获取待存储的模型数据,并按照预设的数据页存储空间,将模型数据划分为若干个第一数据页;基于当前时刻生成的密钥,对每个第一数据页进行加密,得到各加密数据页,并根据各加密数据页生成的散列值对密钥进行加密,得到密钥数据页;构建包含各加密数据页和密钥数据页的数据条,并进行冗余编码,得到至少两个冗余数据页;将数据条中的各数据页和各冗余数据页写入存储设备,并对存储设备中存储的数据进行读取、恢复、更新、删除等数据管理。本方案有效避免了数据泄露以及损坏的风险,提高了数据的安全性。

    一种计算集群温度告警方法、装置、存储介质及电子设备

    公开(公告)号:CN118394607A

    公开(公告)日:2024-07-26

    申请号:CN202410849946.9

    申请日:2024-06-27

    Abstract: 本说明书公开了一种计算集群温度告警方法、装置、存储介质及电子设备,包括:获取各服务器的核心芯片的硬件温度,将各硬件温度输入各服务器对应的预先训练的服务器告警模型,确定各服务器分别对应的第一状态。确定通过各传感器采集到的环境温度,并将各第一状态和各环境温度输入预先训练的集群告警模型,确定计算集群对应的告警状态,并根据告警状态,对计算集群进行温度告警。通过具有可解释性的多规则的服务器告警模型,自动化判断服务器的状态,以及通过具有可解释性的多规则的集群告警模型,自动化判断计算集群的告警状态,从而自动化对计算集群的温度进行监测,以避免计算集群的温度出现异常,以防硬件受损或系统崩溃。

Patent Agency Ranking