面向深度学习的分布式计算系统的作业调度方法和装置

    公开(公告)号:CN116755893A

    公开(公告)日:2023-09-15

    申请号:CN202311056655.6

    申请日:2023-08-22

    Abstract: 面向深度学习的分布式计算系统的作业调度方法和装置,包括:获取用户输入的作业信息,并存储在数据库中,作业信息包括作业优先级等,并根据作业信息维护一个作业优先级队列;获取集群中各节点的缓存信息;响应于接收到发起作业执行的请求,作业执行根据所述的优先级队列先后顺序执行,将所述作业调度到相应主机节点上执行,执行的结果存储到数据库中;响应于接收到模型更新作业的请求,在所述数据库中查询所述作业所需的数据,计算作业剩余结束时间,并将计算结果保存到数据库中;响应与接收到更新所述队列请求,在所述数据库中查询所需的数据,并根据所述数据更新所述队列。本发明较少依赖用户输入信息,有效提高作业执行时间预测精度。

    一种模型构建方法、装置、存储介质及电子设备

    公开(公告)号:CN116502679A

    公开(公告)日:2023-07-28

    申请号:CN202310543696.1

    申请日:2023-05-15

    Abstract: 本说明书公开了一种模型构建方法、装置、存储介质及电子设备,可以对需要进行测试的各候选模型架构进行筛选,以筛选出通过代理模型预测出的性能参数的准确率较低的部分候选模型架构,来通过部署测试模型的方式获得该候选模型架构的真实性能参数,而针对剩余的候选模型架构,可以直接通过代理模型来获取出性能参数,并且可以通过主动学习的方法,在线对代理模型进行训练,从而可以在保证候选模型架构的性能评估准确率的同时,提升自动化构建深度学习模型的效率。

    一种面向分布式集群的任务执行方法、装置、介质及设备

    公开(公告)号:CN116382599A

    公开(公告)日:2023-07-04

    申请号:CN202310669715.5

    申请日:2023-06-07

    Abstract: 本说明书公开了一种面向分布式集群的任务执行方法、装置、介质及设备。所述面向分布式集群的任务执行方法包括:获取样本数据,根据磁盘带宽和本地延迟,以及网络带宽和网络延迟,对样本数据的数量进行划分,将第一样本数量的样本数据存储在各计算节点的本地磁盘,将第二样本数量的样本数据存储在存储节点,针对每个计算节点,将该计算节点的本地磁盘中指定数量的样本数据与其他计算节点的本地磁盘中的样本数据进行交换,得到更新后样本数据,以及,从所述存储节点中读取远端样本数据,根据更新后本地样本数据和远端样本数据,在该计算节点上执行当前训练周期针对目标模型的训练任务。

    一种芯片电流的预测方法、装置、介质及电子设备

    公开(公告)号:CN116204387A

    公开(公告)日:2023-06-02

    申请号:CN202310461391.6

    申请日:2023-04-26

    Abstract: 本说明书公开了一种芯片电流的预测方法、装置、介质及电子设备,采用可解释人工智能技术,获取芯片中的任务负载状态以及指令集,该任务负载状态包括运算单元任务负载状态和缓存单元任务负载状态。将该芯片的任务负载状态输入到第一回归模型,以使第一回归模型确定该芯片维持该任务负载状态的所需电流。并将该指令集输入第二回归模型,以使第二回归模型确定该芯片执行该指令集中的指令后的电流变化值。根据该芯片维持该任务负载状态的所需电流以及该芯片执行该指令集中包含的指令后的电流变化值,以确定该芯片的增量电流。实现了对芯片维持作业的电流的预测,且因为第一回归模型与第二回归模型具备可解释性,提高了预测电流作业的可靠性及可控性。

Patent Agency Ranking