一种面向多并发深度学习训练任务的数据缓存方法和装置

    公开(公告)号:CN114968588B

    公开(公告)日:2025-02-28

    申请号:CN202210632036.6

    申请日:2022-06-07

    Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。

    工作流执行序列生成方法、装置、计算机设备和存储介质

    公开(公告)号:CN117369962A

    公开(公告)日:2024-01-09

    申请号:CN202311149336.X

    申请日:2023-09-07

    Abstract: 本申请涉及一种工作流执行序列生成方法、装置、计算机设备和存储介质。所述方法包括:获取工作流执行序列数据集,所述工作流执行序列数据集包括训练工作流描述和对应的标准工作流执行序列,基于所述工作流执行序列数据集训练初始模型,得到执行序列生成模型,将目标工作流需求描述输入所述执行序列生成模型,得到初始工作流执行序列,若所述初始工作流执行序列不满足预设要求,则将所述初始工作流执行序列输入执行序列优化模型,确定目标工作流执行序列,所述执行序列优化模型由强化学习模型训练得到。不仅提高了工作流执行序列生成效率,节省了大量的人力和时间,同时提高了资源利用率。

    一种基于插桩的自动化性能数据获取和分析方法及装置

    公开(公告)号:CN117349134A

    公开(公告)日:2024-01-05

    申请号:CN202311278119.0

    申请日:2023-09-28

    Abstract: 本发明公开了一种基于插桩的自动化性能数据获取和分析方法及装置,所述方法包括以下步骤:通过配置选项选择待插桩的源代码范围,定位待插桩的源代码范围中的原始函数定义处的函数名,进行更名操作;生成包括性能数据获取块一、更名后的函数调用块、性能数据获取块二的插桩器;为每个更名后的函数生成一个与原始函数同名、具有相同参数列表和返回类型的函数,并在函数中插入插桩器以存储原始函数的性能数据;获取原始函数的性能数据进行分析,并生成结果报告。上述方案在保证插桩结果正确性的前提下,简化了性能数据获取的插桩过程和工作量。

    一种缓存数据的处理方法、深度学习训练方法和系统

    公开(公告)号:CN117215973A

    公开(公告)日:2023-12-12

    申请号:CN202311179609.5

    申请日:2023-09-13

    Abstract: 本申请涉及一种缓存数据的处理方法、深度学习训练方法和系统。应用于本地节点,本地节点连接远程节点以及服务器,本地节点设置有本地命中缓存区和本地淘汰缓存区:从本地命中缓存区中读取第一已缓存数据,并得到当前读取数据;其中,第一已缓存数据包括已分配至本地节点并缓存在本地命中缓存区的第一历史训练数据,以及本地节点从远程节点预读取并缓存至本地命中缓存区的第二历史训练数据;在服务器基于当前读取数据生成深度学习模型的情况下,本地节点将当前读取数据转移至淘汰缓存区中,得到第二已缓存数据。采用本方法能够提高深度学习训练的效率。

    一种面向多并发深度学习训练任务的数据缓存方法和装置

    公开(公告)号:CN114968588A

    公开(公告)日:2022-08-30

    申请号:CN202210632036.6

    申请日:2022-06-07

    Abstract: 本发明公开一种面向多并发深度学习训练任务的数据缓存方法和装置,该方法包括:步骤一,对多并发任务中每个任务执行预热训练,采集任务训练批次样本的特征参数,根据特征参数对所有任务进行排序;步骤二,计算每个任务在系统预分配下每个训练批次样本在缓存空间中的样本数目和每个任务期望每个训练批次样本在缓存空间中的样本数目;步骤三,采用缓存动态分配和管理策略并发执行任务的深度学习训练;步骤四,当各任务进入最后一个训练周期时,不再有新的样本数据加入这些任务的缓存空间,同时随着缓存空间内的样本数据被逐渐使用消耗,被占用的缓存空间逐步被释放,被释放的缓存空间被其他尚未结束的任务使用。本发明提高了全局缓存空间的利用率。

    一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法

    公开(公告)号:CN114820278A

    公开(公告)日:2022-07-29

    申请号:CN202210463699.X

    申请日:2022-04-29

    Abstract: 本发明属于人工智能下的深度学习领域,公开了一种用于分布式环境下多深度学习任务的异构GPU分配系统和方法,所述系统包括GPU Profile模块、任务信息采集模块、GPU选择模块和深度学习训练模块;本发明的一种用于分布式环境下多深度学习任务的异构GPU分配方法可以通过将不同计算能力的GPU分配给对应需求的任务,将模型层次复杂且批次数据量大的任务适配到性能最佳的GPU且显存足够存储的节点上运行,加快需要更长时间做深度学习训练的任务,从而明显提高异构环境下的多任务执行效率;而且当多深度学习任务并发执行,多深度学习能够整体更快地完成,可以节约程序员或用户等待结果的时间。

    一种任务调度方法、装置、计算机设备和存储介质

    公开(公告)号:CN117873679A

    公开(公告)日:2024-04-12

    申请号:CN202410032938.5

    申请日:2024-01-09

    Abstract: 本申请涉及一种任务调度方法、装置、计算机设备和存储介质。所述装置包括:节点信息模块,用于采集并储存集群节点的历史节点信息以及历史任务信息;资源预测模块,用于根据历史节点信息和历史任务信息,计算得到针对集群节点的资源状态预测信息;调度器,用于接收当前待部署任务,并根据资源状态预测信息,确定集群节点中的至少一个当前部署节点,以及当前待部署任务中与当前部署节点对应的子任务;任务下发模块,连接所述调度器,用于向当前部署节点发送对应的子任务。采用本装置,通过所述资源预测模块,预测进行任务调度时的集群节点状态,保证时效性,避免因状态滞后导致调度未达到理想状况。

    一种缓存数据的处理方法、深度学习训练方法和系统

    公开(公告)号:CN117215973B

    公开(公告)日:2024-05-28

    申请号:CN202311179609.5

    申请日:2023-09-13

    Abstract: 本申请涉及一种缓存数据的处理方法、深度学习训练方法和系统。应用于本地节点,本地节点连接远程节点以及服务器,本地节点设置有本地命中缓存区和本地淘汰缓存区:从本地命中缓存区中读取第一已缓存数据,并得到当前读取数据;其中,第一已缓存数据包括已分配至本地节点并缓存在本地命中缓存区的第一历史训练数据,以及本地节点从远程节点预读取并缓存至本地命中缓存区的第二历史训练数据;在服务器基于当前读取数据生成深度学习模型的情况下,本地节点将当前读取数据转移至淘汰缓存区中,得到第二已缓存数据。采用本方法能够提高深度学习训练的效率。

    一种加速深度学习训练任务数据载入的方法

    公开(公告)号:CN113656333A

    公开(公告)日:2021-11-16

    申请号:CN202111221953.7

    申请日:2021-10-20

    Abstract: 本发明公开了一种加速深度学习训练任务数据载入的方法,该方法使用双随机序列方式,在每个训练周期开始时提前计算下一个周期的随机序列,并申请一块独立的内存提前缓存下一个周期初始阶段所需数据。根据当前周期的随机序列依次为神经网络准备数据的同时,可参照下一个周期的随机序列及时将下一个周期初始阶段所需数据依次从内存拷贝到缓存,使得下一个周期初始阶段所需的数据可全部从缓存获得。本发明不需修改现有深度学习的架构,实现简单,引入的计算开销小,缓存数据能全部命中且可被使用多次,从而减少从后端存储系统读取数据,并且训练周期数越多,此方法的加速效果越明显。

    一种跨集群数据处理方法及装置
    10.
    发明公开

    公开(公告)号:CN120011112A

    公开(公告)日:2025-05-16

    申请号:CN202510488492.1

    申请日:2025-04-18

    Abstract: 本说明书公开了一种跨集群数据处理方法及装置。所述方法包括:将各计算节点所存储的第一结果数据拆分为多个数据切片;按照每个数据切片在第一结果数据中的先后顺序,依次将各数据切片从各计算节点发送给第一计算集群的主机内存,以使主机内存对已接收的数据切片和第二计算集群的主机内存中存储的数据切片进行规约计算,得到已接收的数据切片对应的第二结果数据;控制主机内存在接收后续的数据切片的同时,将第二结果数据从第一计算集群的主机内存发送给每个已接收的数据切片对应的计算节点;在各计算节点接收到全部数据切片对应的第二结果数据后,得到目标计算结果。本方案提高了跨集群通信效率,进一步提高了跨集群数据处理效率。

Patent Agency Ranking