词表变换方法、装置、设备及存储介质

    公开(公告)号:CN117350279A

    公开(公告)日:2024-01-05

    申请号:CN202311040291.2

    申请日:2023-08-17

    Abstract: 本发明的实施方式提供了一种词表变换方法、装置、设备及存储介质其中,所述方法包括:获取语言模型对应的第一词表;基于目标场景的语料库,构建第二词表;其中,所述第二词表至少包括所述第一词表中缺少的词令牌;确定所述第一词表中词令牌与所述第二词表中词令牌之间的映射关系;基于所述映射关系对所述语言模型中的词向量参数进行对齐变换。这样,利用目标场景的语料库构建全新的第二词表,并通过对齐变换使得语言模型从之前的词表转换到适配目标场景的新词表上,从而加速该模型上对目标语言的编码解码速度,提升后续在目标场景的语料库上的预训练质量。

    机器学习模型训练方法、介质、装置和计算设备

    公开(公告)号:CN110543645B

    公开(公告)日:2023-04-07

    申请号:CN201910833869.7

    申请日:2019-09-04

    Inventor: 程桥 黄瑾 段亦涛

    Abstract: 本发明的实施方式提供了一种机器学习模型训练方法、介质、机器学习模型训练装置和计算设备。该机器学习模型训练方法包括:获取原始数据,以得到由所述原始数据组成的原始数据集;获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。该方法具有训练效率高、训练效果好等优点。

    用于生成训练数据的方法、训练方法、设备及存储介质

    公开(公告)号:CN114742076B

    公开(公告)日:2024-12-03

    申请号:CN202210375048.5

    申请日:2022-04-11

    Abstract: 本发明的实施方式提供了一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。该方法包括:对源平行数据中的第一语种数据进行第一加噪处理,以生成与第一语种数据相关的加噪数据;基于源平行数据中的第二语种数据和加噪数据,生成用于翻译训练的加噪平行数据;和/或基于第一语种数据和加噪数据,生成用于纠错训练的纠错数据对。根据本发明实施方式的用于生成训练数据的方法,可以使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量,和/或使得利用该纠错数据对进行训练的纠错模型能够提高纠错质量。

    机器翻译方法和装置、电子设备和存储介质

    公开(公告)号:CN116796764A

    公开(公告)日:2023-09-22

    申请号:CN202310804071.6

    申请日:2023-06-30

    Abstract: 本发明的实施方式提供了一种机器翻译方法和装置、电子设备和存储介质。其中,方法包括:获取待翻译文本;将待翻译文本输入目标翻译网络中的目标机器翻译模型;目标机器翻译模型对待翻译文本进行识别后得到隐状态数据,并将隐状态数据依次通过Linear层以及softmax层处理后得到每个候选译文的第一候选译文概率;目标翻译网络中的惩罚模型按照隐状态数据与翻译记忆库指示的每个候选译文之间的相关性,对隐状态数据与每个候选译文之间的初始译文概率进行惩罚操作后得到第二候选译文概率;根据第一候选译文概率以及第二候选译文概率,在所有候选译文中确定出目标译文。通过本申请可以克服相关技术中在进行机器翻译时增加翻译记忆库导致翻译准确性不稳定的问题。

    为对话数据生成情景任务的方法、装置、计算设备和介质

    公开(公告)号:CN116882418A

    公开(公告)日:2023-10-13

    申请号:CN202310922871.8

    申请日:2023-07-25

    Inventor: 程桥 黄瑾 段亦涛

    Abstract: 本披露公开了一种为对话数据生成情景任务的方法、装置、计算设备和介质。所述方法包括:获取第一数量原始对话数据集;将所述第一数量原始对话数据集输入到上下文学习的大语言模型,以为所述第一数量原始对话数据集,生成情景任务,所述上下文学习的大语言模型用于根据输入的对话数据,生成对应的情景任务。相比于人工对对话数据进行情景任务的标注,根据本披露的通过上下文学习的大语言模型进行对话数据的情景任务的生成的方案可以更快更多的为对话数据生成情景任务,从而通过将具有情景任务的对话数据,作为训练数据,训练情景对话系统时,能使得训练的效果更好,训练得到的情景对话系统更加精确。

    用于生成训练数据的方法、训练方法、设备及存储介质

    公开(公告)号:CN114742076A

    公开(公告)日:2022-07-12

    申请号:CN202210375048.5

    申请日:2022-04-11

    Abstract: 本发明的实施方式提供了一种用于生成训练数据的方法、用于翻译模型的训练方法、用于纠错模型的训练方法、用于生成训练数据的设备及计算机可读存储介质。该方法包括:对源平行数据中的第一语种数据进行第一加噪处理,以生成与第一语种数据相关的加噪数据;基于源平行数据中的第二语种数据和加噪数据,生成用于翻译训练的加噪平行数据;和/或基于第一语种数据和加噪数据,生成用于纠错训练的纠错数据对。根据本发明实施方式的用于生成训练数据的方法,可以使得利用该加噪平行数据进行训练后的翻译模型能够提高对带噪音句子的翻译质量,和/或使得利用该纠错数据对进行训练的纠错模型能够提高纠错质量。

    机器学习模型训练方法、介质、装置和计算设备

    公开(公告)号:CN110543645A

    公开(公告)日:2019-12-06

    申请号:CN201910833869.7

    申请日:2019-09-04

    Inventor: 程桥 黄瑾 段亦涛

    Abstract: 本发明的实施方式提供了一种机器学习模型训练方法、介质、机器学习模型训练装置和计算设备。该机器学习模型训练方法包括:获取原始数据,以得到由所述原始数据组成的原始数据集;获取通过数据增强得到的扩展数据,以得到由所述扩展数据组成的扩展数据集;以第一抽样比例从所述原始数据集中抽取原始数据样本,并以第二抽样比例从所述扩展数据集中抽取扩展数据样本;利用所述原始数据样本和所述扩展数据样本组成的训练样本集对机器学习模型进行迭代训练,并在训练过程中动态调整所述第一抽样比例和所述第二抽样比例以更新所述训练样本集。该方法具有训练效率高、训练效果好等优点。

    用于扩充语料的方法和用于翻译模型的训练方法及产品

    公开(公告)号:CN113268996B

    公开(公告)日:2025-03-18

    申请号:CN202110615854.0

    申请日:2021-06-02

    Inventor: 程桥 黄瑾 段亦涛

    Abstract: 本发明的实施方式提供了一种用于扩充语料的方法和用于翻译模型的训练方法及产品。该方法包括:将平行语料中的源端文本与相应的目标端文本连接;在连接之前或者连接之后,对所述源端文本和/或所述目标端文本进行遮蔽处理,以生成包含遮蔽词的连接文本;以及基于掩码预测模型对所述连接文本进行预测,以获得所述遮蔽词的预测分布,其中所述预测分布用于扩充所述平行语料。根据本发明实施方式的方法,不仅能够扩充平行语料的数量,还能够保证扩充语料的质量,从而有利于提升对机器翻译模型的训练质量。

Patent Agency Ranking