数据合成方法、模型预训练方法、装置、介质及设备

    公开(公告)号:CN119862269A

    公开(公告)日:2025-04-22

    申请号:CN202411821931.8

    申请日:2024-12-11

    Abstract: 本申请实施例提供了一种数据合成方法、模型预训练方法、数据合成装置、计算机可读存储介质以及电子设备,涉及人工智能技术领域。该方法包括:将目标预训练模型对应的目标任务进行拆分,得到多个子任务;根据种子数据集中的种子数据,确定提示词,其中,种子数据集中数据为从多种渠道收集的关于目标任务的数据,提示词为子任务对应的提示词或者为目标任务对应的提示词,提示词的样式包括多种;将提示词输入大语言模型,其中,该大语言模型为经过训练的模型,且该模型输出的生成数据对应于上述提示词;根据上述生成数据,确定关于目标任务的合成数据。本申请实施例能够提供大规模且高质量的合成数据,有利于满足预训练对大规模高质量数据的需求。

    翻译模型训练方法、装置、设备及存储介质

    公开(公告)号:CN112560510B

    公开(公告)日:2023-12-01

    申请号:CN202011454443.X

    申请日:2020-12-10

    Abstract: 模型训练数据,提升了翻译模型的训练效果。本申请公开了一种翻译模型训练方法、装置、设备及存储介质,本申请针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,该平行语料是目标语言,若训练语料的语言与目标语言近似,该平行语料是源语言,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,由混合语言训练语料与平行语料组成平行语料对,以平行语料对加入训练样本集,训

    翻译模型训练方法、装置、设备及存储介质

    公开(公告)号:CN112560510A

    公开(公告)日:2021-03-26

    申请号:CN202011454443.X

    申请日:2020-12-10

    Abstract: 本申请公开了一种翻译模型训练方法、装置、设备及存储介质,本申请针对源语言和/或目标语言,获取其各自的近似语言下的训练语料,以及训练语料的平行语料,其中,若训练语料的语言与源语言近似,该平行语料是目标语言,若训练语料的语言与目标语言近似,该平行语料是源语言,针对训练语料中至少一文本单元,利用该文本单元在与训练语料近似的源语言或目标语言下的平行文本单元进行替换,得到混合语言训练语料,由混合语言训练语料与平行语料组成平行语料对,以平行语料对加入训练样本集,训练源语言至目标语言的翻译模型。本申请利用了源语言和/或目标语言的近似语言资源,丰富了模型训练数据,提升了翻译模型的训练效果。

    有监督数据构建方法、装置、电子设备和存储介质

    公开(公告)号:CN119830987A

    公开(公告)日:2025-04-15

    申请号:CN202411882981.7

    申请日:2024-12-19

    Abstract: 本发明提供一种有监督数据构建方法、装置、电子设备和存储介质,其中方法包括:获取有监督任务的任务描述文本、种子指令和输入数据;基于任务描述文本,对种子指令进行指令扩写,得到扩写指令;基于输入数据,对扩写指令进行指令泛化,得到任务指令;将任务指令输入到问答模型中,得到问答模型输出的任务指令的输出数据;基于任务指令和输出数据,构建有监督数据。本发明提供的方法、装置、电子设备和存储介质,通过自动化的指令优化,大大降低了模型合成方式的使用门槛,且仅需输入任务描述文本,即可保证有监督数据和有监督任务的贴合度,有效保证了有监督数据构建的通用性,实现了有监督数据的构建效率和数据质量的均衡优化。

    翻译质量评估方法、装置、电子设备和存储介质

    公开(公告)号:CN113609875B

    公开(公告)日:2024-02-20

    申请号:CN202110901225.4

    申请日:2021-08-06

    Abstract: 本发明提供一种翻译质量评估方法、装置、电子设备和存储介质,其中方法包括:确定原文文本及其对应的待评估译文文本;对所述待评估译文文本进行句级别翻译质量评估,得到句级评估结果;所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度;对所述待评估译文文本进行词级别翻译质量评估,得到词级评估结果;所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度;基于所述句级评估结果和所述词级评估结果,确定所述待评估译文文本的质量评估结果。本发明提高了翻译质量评估的准确性。

    摘要提取和摘要抽取模型训练方法及相关装置、存储介质

    公开(公告)号:CN111241267B

    公开(公告)日:2022-12-06

    申请号:CN202010025465.8

    申请日:2020-01-10

    Abstract: 本申请公开了一种摘要提取和摘要抽取模型训练方法及相关装置、存储介质,其中,摘要提取方法包括:对文本进行分句得到句子列表,按照预设长度对句子列表按照顺序进行窗口划分得到多个窗口,且预设长度为摘要抽取模型支持的最大序列长度,每个窗口包括多个连续的句子且长度小于或等于预设长度,相邻的两个窗口包括至少一个相同的句子,利用摘要抽取模型分别对每个窗口进行预测,得到每个窗口中每个句子的重要性得分,利用每个窗口中每个句子的重要性得分确定文本中每个句子的重要性得分,选择按重要性得分从高到低排序靠前的至少一个句子作为文本的摘要。上述方案,能够提高摘要提取的质量。

    一种视频字幕翻译方法、装置以及设备

    公开(公告)号:CN115393765A

    公开(公告)日:2022-11-25

    申请号:CN202211027303.3

    申请日:2022-08-25

    Abstract: 本发明公开了一种视频字幕翻译方法、装置以及设备,视频字幕翻译方法包括:提取视频中的至少一个第一视频帧和/或第一视频帧序列;依据至少一个第一视频帧和/或第一视频帧序列确定视频所属的场景类型下的领域类型;依据场景类型下的领域类型对视频进行转写和翻译。本发明从视频本身的信息出发,对视频进行语义分析,从而确定视频所属的场景类型和细分领域,有助于在转写和翻译中明确确定转写和翻译结果。

    平行句对构建方法、装置、电子设备和存储介质

    公开(公告)号:CN115062633B

    公开(公告)日:2025-05-13

    申请号:CN202210688236.3

    申请日:2022-06-16

    Abstract: 本发明提供一种平行句对构建方法、装置、电子设备和存储介质,其中方法包括:获取第一语句和第二语句,第一语句和第二语句对应不同语种;基于跨语种语言模型,确定第一语句的第一语义特征和第二语句的第二语义特征,跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,第一样本语句和第二样本语句对应不同语种;基于第一语义特征和第二语义特征之间的相似度,构建平行句对,本发明实施例中,应用不同语种的样本语句各自包含的分词之间的词义关系,进行模型训练,能够使训练所得的模型性能更优,在面向稀缺资源语言时,提升了句子嵌入的准确度,精进了平行句对的构建过程,实现了平行句对构建质量的提升。

    长文本处理方法、相关设备及可读存储介质

    公开(公告)号:CN112527992B

    公开(公告)日:2023-01-17

    申请号:CN202011492809.2

    申请日:2020-12-17

    Abstract: 本申请公开了一种长文本处理方法、相关设备及可读存储介质,对于长度大于预设长度的长文本,可以基于预置的文本处理模型的处理类型,将该长文本分割成多个文本片段,每个文本片段的长度不超过该文本处理模型所能处理最大文本的长度,然后针对文本片段,利用该文本处理模型进行处理,得到该文本片段对应的处理结果,最后基于各个文本片段对应的处理结果,即可得到与该长文本对应的处理结果。上述方案中,通过基于文本处理模型所能处理最大文本的长度,将长文本的处理转化为对多个短文本的处理,基于多个短文本的处理结果得到长文本的处理结果的方式,从而实现了基于文本处理模型对长文本的处理。

Patent Agency Ranking