面向深度学习的分布式计算系统的作业调度方法和装置

    公开(公告)号:CN116755893B

    公开(公告)日:2023-11-17

    申请号:CN202311056655.6

    申请日:2023-08-22

    Abstract: 面向深度学习的分布式计算系统的作业调度方法和装置,包括:获取用户输入的作业信息,并存储在数据库中,作业信息包括作业优先级等,并根据作业信息维护一个作业优先级队列;获取集群中各节点的缓存信息;响应于接收到发起作业执行的请求,作业执行根据所述的优先级队列先后顺序执行,将所述作业调度到相应主机节点上执行,执行的结果存储到数据库中;响应于接收到模型更新作业的请求,在所述数据库中查询所述作业所需的数据,计算作业剩余结束时间,并将计算结果保存到数据库中;响应与接收到更新所述队列请求,在所述数据库中查询所需的数据,并根据所述数据更新所述队列。本发明较少依赖用户输入信息,有效提高作业执行时间预测精度。

    一种并行训练中的节点通信方法、存储介质、设备

    公开(公告)号:CN117035123B

    公开(公告)日:2024-01-09

    申请号:CN202311298503.7

    申请日:2023-10-09

    Abstract: 本说明书公开了一种并行训练中的节点通信方法、存储介质、设备,所述方法应用于模型并行训练,所述模型被切分为不同的运算模块,各运算模块分别部署于不同的计算节点中,针对任一计算节点,该方法包括:根据训练样本及部署于该计算节点上的运算模块,得到待同步激活值;根据该待同步激活值与预存的输出激活值,得到输出激活值增量;对该输出激活值增量进行量化,得到量化激活值增量;将该量化激活值增量同步给其他计算节点。所述方法能够加速通信、减小对网络通信的要求,提升模型的训练性能。(56)对比文件王国生.基于忆阻器的脉冲神经网络关键技术研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2022,第2022年卷(第4期),I135-377.Richard Liaw等.Tune: A ResearchPlatform for Distributed Model Selectionand Training《.Arxiv》.2018,1-8.Dominic Masters等.Revisiting SmallBatch Training for Deep Neural Networks.《Arxiv》.2018,1-18.

    基于参数计算和通信调度的分布式训练加速方法和系统

    公开(公告)号:CN116258197B

    公开(公告)日:2023-09-08

    申请号:CN202310545694.6

    申请日:2023-05-16

    Abstract: 基于参数计算和通信调度的分布式训练加速方法,包括:根据反向传播算法各层梯度之间不存在依赖关系的特点,通过调整梯度计算顺序,优先计算模型靠前层的梯度,从而提早梯度的传输时间,使得下轮该层的前向传播过程能够更早开始;对于梯度传输过程,通过动态枚举梯度拆分或融合阈值,并结合实时运行情况来选择性能最优的方案。还包括一种基于参数计算和通信调度的分布式训练加速系统。本发明增加了计算和通信之间的覆盖度,提升了训练性能,且实现上简单灵活,能够快速适配不同的模型及训练环境。

    文本分类方法、装置、计算机设备以及存储介质

    公开(公告)号:CN117009534B

    公开(公告)日:2024-02-13

    申请号:CN202311281379.3

    申请日:2023-10-07

    Abstract: 本申请涉及一种文本分类方法、装置、计算机设备以及存储介质。所述方法包括:对文本分类数据集进行分词处理,确定目标语义单元序列;根据目标语义单元序列构建样本数据集;将有标签数据集分别输入学生模型和标签训练教师模型,确定第一学生预测数据和第一教师预测数据,并将无标签数据集分别输入学生模型和对抗训练教师模型,确定第二学生预测数据和第二教师预测数据;根据第一学生预测数据、第一教师预测数据、第二学生预测数据和第二教师预测数据对所述学生模型进行参数调整,确定文本分类模型;将待分类文本输入所述文本分类模型,根据文本分类模型的输出结果确定待分类文本的文本分类标签。上述方法提高了文本分类的准确性。

    一种面向广域网的拥塞控制方法及装置

    公开(公告)号:CN116743660A

    公开(公告)日:2023-09-12

    申请号:CN202310903988.1

    申请日:2023-07-21

    Abstract: 本发明公开了一种面向广域网的拥塞控制方法:当交换机判定拥塞发生时,交换机获取接收缓冲区的网络包并构造拥塞通知报文;交换机直接将拥塞通知报文传递给发送方;其中,所述拥塞通知报文的目的IP地址为网络包的源IP地址,拥塞通知报文的源IP地址为网络包的目的IP地址;拥塞通知报文的目标TCP端口号为流量包的源TCP端口号,拥塞通知报文的源TCP端口号为网络包的目标TCP端口号;TCP头中拥塞窗口减小CWR和显示拥塞通知ECE同时被设置,表示该报文为拥塞通知报文;拥塞通知报文中TCP数据为拥塞状态相关信息。本发明还公开了一种面向广域网的拥塞控制装置。该方法及装置可以在广域网上传输拥塞通知报文,也可以缩短拥塞产生后的传输路径,提升拥塞控制的效果。

    基于参数计算和通信调度的分布式训练加速方法和系统

    公开(公告)号:CN116258197A

    公开(公告)日:2023-06-13

    申请号:CN202310545694.6

    申请日:2023-05-16

    Abstract: 基于参数计算和通信调度的分布式训练加速方法,包括:根据反向传播算法各层梯度之间不存在依赖关系的特点,通过调整梯度计算顺序,优先计算模型靠前层的梯度,从而提早梯度的传输时间,使得下轮该层的前向传播过程能够更早开始;对于梯度传输过程,通过动态枚举梯度拆分或融合阈值,并结合实时运行情况来选择性能最优的方案。还包括一种基于参数计算和通信调度的分布式训练加速系统。本发明增加了计算和通信之间的覆盖度,提升了训练性能,且实现上简单灵活,能够快速适配不同的模型及训练环境。

    一种并行训练中的节点通信方法、存储介质、设备

    公开(公告)号:CN117035123A

    公开(公告)日:2023-11-10

    申请号:CN202311298503.7

    申请日:2023-10-09

    Abstract: 本说明书公开了一种并行训练中的节点通信方法、存储介质、设备,所述方法应用于模型并行训练,所述模型被切分为不同的运算模块,各运算模块分别部署于不同的计算节点中,针对任一计算节点,该方法包括:根据训练样本及部署于该计算节点上的运算模块,得到待同步激活值;根据该待同步激活值与预存的输出激活值,得到输出激活值增量;对该输出激活值增量进行量化,得到量化激活值增量;将该量化激活值增量同步给其他计算节点。所述方法能够加速通信、减小对网络通信的要求,提升模型的训练性能。

    基于模型自动量化的文本分类方法、系统和存储介质

    公开(公告)号:CN116992032A

    公开(公告)日:2023-11-03

    申请号:CN202311235665.6

    申请日:2023-09-25

    Abstract: 本申请涉及一种基于模型自动量化的文本分类方法、系统和存储介质,其中,上述方法包括:基于文本特征数据,得到初始神经网络;获取初始神经网络在目标卷积层的输入值和输出值;根据输入值,获取第一激活值;根据转移因子、第一激活值和第一权重值得到平滑系数;根据平滑系数,得到目标卷积层输出和初始神经网络在目标卷积层的输出值的均方误差集合,进而得到目标平滑系数;根据目标平滑系数对应得到目标神经网络模型,用于对待分类文本数据进行分类。通过本申请,解决了相关技术中存在的通过传统模型量化方法生成的文本分类神经网络模型的学习效果较差,导致文本分类的准确度较低问题,提高了文本分类的准确度。

Patent Agency Ranking