-
公开(公告)号:CN115329744B
公开(公告)日:2023-04-07
申请号:CN202211237680.X
申请日:2022-10-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F40/20 , G06F40/30 , G06F18/214 , G06N3/084
Abstract: 本申请公开了一种自然语言处理方法、系统、设备及存储介质,应用于机器学习技术领域,包括:得到训练完毕的第一自然语言处理模型;设定用于决定第一自然语言处理模型的模型参数矩阵中的行、列是否保留的行、列稀疏化参数组并进行训练,通过预测损失进行当前未被稀疏的剩余参数的更新,通过预测损失和稀疏度损失,对各个行、列稀疏化参数组进行更新;当总损失收敛时,得到训练完成的第二自然语言处理模型;基于第二自然语言处理模型进行硬件部署,并在部署完成之后,将待处理文本输入至第二自然语言处理模型,得到自然语言处理结果。应用本申请的方案,可以有效地实现自然语言处理,进行软硬件层面的协同优化,且不会损失精度。
-
公开(公告)号:CN115329744A
公开(公告)日:2022-11-11
申请号:CN202211237680.X
申请日:2022-10-11
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本申请公开了一种自然语言处理方法、系统、设备及存储介质,应用于机器学习技术领域,包括:得到训练完毕的第一自然语言处理模型;设定用于决定第一自然语言处理模型的模型参数矩阵中的行、列是否保留的行、列稀疏化参数组并进行训练,通过预测损失进行当前未被稀疏的剩余参数的更新,通过预测损失和稀疏度损失,对各个行、列稀疏化参数组进行更新;当总损失收敛时,得到训练完成的第二自然语言处理模型;基于第二自然语言处理模型进行硬件部署,并在部署完成之后,将待处理文本输入至第二自然语言处理模型,得到自然语言处理结果。应用本申请的方案,可以有效地实现自然语言处理,进行软硬件层面的协同优化,且不会损失精度。
-
公开(公告)号:CN117910521B
公开(公告)日:2024-06-14
申请号:CN202410317335.X
申请日:2024-03-20
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/0495 , G06N3/08 , G06N20/00 , G06F17/10
Abstract: 本发明公开了一种梯度压缩方法、装置、设备、分布式集群及存储介质,属于分布式计算领域,用于别参考模型性能优化速率以及当前的单步训练时长两个指标,对梯度压缩程度进行调节,解决了应对低速网络进行梯度压缩时无法平衡模型性能与通信开销的问题。本发明以单个训练步为粒度,在预热阶段后的任一个训练步得到梯度数据后,在模型性能优化速率不达标的情况下对梯度压缩程度进行缩小,以便提升模型性能,而在模型性能优化速率达标且当前的单步训练时长超标的情况下,便可对梯度压缩程度进行放大,以便降低通信开销,本发明可结合网络状况的影响动态的调节梯度数据的压缩程度,从而在兼顾模型性能与网络状况的基础上,尽可能的降低通信开销。
-
公开(公告)号:CN117910536A
公开(公告)日:2024-04-19
申请号:CN202410309633.4
申请日:2024-03-19
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明涉及人工智能技术领域,公开了文本生成方法及其模型梯度剪枝方法、装置、设备、介质,训练预热阶段保持文本生成模型当前的模型梯度不变;非训练预热阶段,基于滑窗尺寸信息和性能损失函数,确定出文本生成模型在每个训练步数下以损失函数变化率为表征的性能;根据设定的训练状态条件以及每个训练步数下以损失函数变化率为表征的性能和单步训练时长,依次对每个训练步数下的梯度剪枝量进行调整。每得到一个调整后的梯度剪枝量,则按照调整后的梯度剪枝量对文本生成模型进行梯度剪枝操作,直至当前训练步数达到文本生成模型的总训练步数,结束对文本生成模型的剪枝操作,保证了文本生成模型的训练任务能够在低速不稳定的网络环境中顺利完成。
-
公开(公告)号:CN117910521A
公开(公告)日:2024-04-19
申请号:CN202410317335.X
申请日:2024-03-20
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/0495 , G06N3/08 , G06N20/00 , G06F17/10
Abstract: 本发明公开了一种梯度压缩方法、装置、设备、分布式集群及存储介质,属于分布式计算领域,用于别参考模型性能优化速率以及当前的单步训练时长两个指标,对梯度压缩程度进行调节,解决了应对低速网络进行梯度压缩时无法平衡模型性能与通信开销的问题。本发明以单个训练步为粒度,在预热阶段后的任一个训练步得到梯度数据后,在模型性能优化速率不达标的情况下对梯度压缩程度进行缩小,以便提升模型性能,而在模型性能优化速率达标且当前的单步训练时长超标的情况下,便可对梯度压缩程度进行放大,以便降低通信开销,本发明可结合网络状况的影响动态的调节梯度数据的压缩程度,从而在兼顾模型性能与网络状况的基础上,尽可能的降低通信开销。
-
公开(公告)号:CN117875397B
公开(公告)日:2024-06-04
申请号:CN202410269821.9
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/084 , G06N3/0442 , G06N3/082
Abstract: 本发明提供一种待更新参数选择方法、装置、计算设备及存储介质,涉及计算机技术领域,方法应用于计算设备,计算设备存储有待训练的神经网络模型,包括:在对神经网络模型的模型参数执行每轮迭代训练的反向传播操作前,获取与神经网络模型中的各网络层对应的辅助网络;辅助网络包含与网络层中的各神经元对应的辅助参数,辅助参数利用与神经网络模型在每轮迭代训练中共同确定的损失值进行迭代更新;利用门控单元确定各辅助参数对应的门控值;将门控值不大于门控阈值的辅助参数对应的神经元所包含的模型参数设置为待更新参数,并清除不属于待更新参数的模型参数;门控阈值利用计算设备的存储资源量设置;可减少对计算设备存储资源的消耗。
-
公开(公告)号:CN117808083B
公开(公告)日:2024-05-03
申请号:CN202410230106.4
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/098 , G06N3/082 , G06N3/0495
Abstract: 本发明涉及机器学习技术领域,具体公开了一种分布式训练通信方法、装置、系统、设备及存储介质,通过根据分布式训练任务的模型精度损失函数,构建以满足梯度数据的期望稀疏度为约束条件、以模型精度损失最小化为优化目标的数据稀疏化目标函数;基于分布式训练任务的迭代计算得到的节点梯度数据和分布式训练任务的模型网络求解数据稀疏化目标函数,得到梯度数据稀疏化位置信息,从而在计算节点传输节点梯度数据时根据梯度数据稀疏化位置信息进行梯度数据稀疏化传输,使梯度数据稀疏化位置信息的生成次数小于分布式训练任务的迭代计算次数,实现了在分布式训练过程中自适应梯度数据稀疏化处理,兼具提高训练效率和保证模型精度的效果。
-
公开(公告)号:CN117808083A
公开(公告)日:2024-04-02
申请号:CN202410230106.4
申请日:2024-02-29
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/098 , G06N3/082 , G06N3/0495
Abstract: 本发明涉及机器学习技术领域,具体公开了一种分布式训练通信方法、装置、系统、设备及存储介质,通过根据分布式训练任务的模型精度损失函数,构建以满足梯度数据的期望稀疏度为约束条件、以模型精度损失最小化为优化目标的数据稀疏化目标函数;基于分布式训练任务的迭代计算得到的节点梯度数据和分布式训练任务的模型网络求解数据稀疏化目标函数,得到梯度数据稀疏化位置信息,从而在计算节点传输节点梯度数据时根据梯度数据稀疏化位置信息进行梯度数据稀疏化传输,使梯度数据稀疏化位置信息的生成次数小于分布式训练任务的迭代计算次数,实现了在分布式训练过程中自适应梯度数据稀疏化处理,兼具提高训练效率和保证模型精度的效果。
-
公开(公告)号:CN117875397A
公开(公告)日:2024-04-12
申请号:CN202410269821.9
申请日:2024-03-11
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06N3/084 , G06N3/0442 , G06N3/082
Abstract: 本发明提供一种待更新参数选择方法、装置、计算设备及存储介质,涉及计算机技术领域,方法应用于计算设备,计算设备存储有待训练的神经网络模型,包括:在对神经网络模型的模型参数执行每轮迭代训练的反向传播操作前,获取与神经网络模型中的各网络层对应的辅助网络;辅助网络包含与网络层中的各神经元对应的辅助参数,辅助参数利用与神经网络模型在每轮迭代训练中共同确定的损失值进行迭代更新;利用门控单元确定各辅助参数对应的门控值;将门控值不大于门控阈值的辅助参数对应的神经元所包含的模型参数设置为待更新参数,并清除不属于待更新参数的模型参数;门控阈值利用计算设备的存储资源量设置;可减少对计算设备存储资源的消耗。
-
公开(公告)号:CN117910536B
公开(公告)日:2024-06-07
申请号:CN202410309633.4
申请日:2024-03-19
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L43/08 , G06N3/082 , G06N3/098 , G06N3/0495 , G06N5/04
Abstract: 本发明涉及人工智能技术领域,公开了文本生成方法及其模型梯度剪枝方法、装置、设备、介质,训练预热阶段保持文本生成模型当前的模型梯度不变;非训练预热阶段,基于滑窗尺寸信息和性能损失函数,确定出文本生成模型在每个训练步数下以损失函数变化率为表征的性能;根据设定的训练状态条件以及每个训练步数下以损失函数变化率为表征的性能和单步训练时长,依次对每个训练步数下的梯度剪枝量进行调整。每得到一个调整后的梯度剪枝量,则按照调整后的梯度剪枝量对文本生成模型进行梯度剪枝操作,直至当前训练步数达到文本生成模型的总训练步数,结束对文本生成模型的剪枝操作,保证了文本生成模型的训练任务能够在低速不稳定的网络环境中顺利完成。
-
-
-
-
-
-
-
-
-