平行句对构建方法、装置、电子设备和存储介质

    公开(公告)号:CN115062633B

    公开(公告)日:2025-05-13

    申请号:CN202210688236.3

    申请日:2022-06-16

    Abstract: 本发明提供一种平行句对构建方法、装置、电子设备和存储介质,其中方法包括:获取第一语句和第二语句,第一语句和第二语句对应不同语种;基于跨语种语言模型,确定第一语句的第一语义特征和第二语句的第二语义特征,跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,第一样本语句和第二样本语句对应不同语种;基于第一语义特征和第二语义特征之间的相似度,构建平行句对,本发明实施例中,应用不同语种的样本语句各自包含的分词之间的词义关系,进行模型训练,能够使训练所得的模型性能更优,在面向稀缺资源语言时,提升了句子嵌入的准确度,精进了平行句对的构建过程,实现了平行句对构建质量的提升。

    语法缺陷数据识别模型构建方法和语法缺陷数据识别方法

    公开(公告)号:CN112668345B

    公开(公告)日:2024-06-04

    申请号:CN202011552924.4

    申请日:2020-12-24

    Abstract: 本申请公开了一种语法缺陷数据识别模型构建方法和语法缺陷数据识别方法,该构建方法包括:在获取到第一训练源文本、第一标准翻译文本及其对应的第一实际识别结果、和第一语法缺陷翻译文本及其对应的第二实际识别结果后,将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型,得到第一标准翻译文本对应的第一预测识别结果和第一语法缺陷翻译文本对应的第二预测识别结果;再根据第一预测识别结果、第二预测识别结果、第一实际识别结果和第二实际识别结果更新第一模型,并返回执行将第一训练源文本、第一标准翻译文本和第一语法缺陷翻译文本输入第一模型的步骤,直至在达到第一停止条件时根据第一模型构建语法缺陷数据识别模型。

    音素提取方法、语音识别方法、装置、设备及存储介质

    公开(公告)号:CN113838456B

    公开(公告)日:2024-05-31

    申请号:CN202111141351.0

    申请日:2021-09-28

    Inventor: 方昕 刘俊华

    Abstract: 本申请提出一种音素提取方法、语音识别方法、装置、电子设备及存储介质,该方法包括:根据待识别语音的当前待识别语音单元的声学特征,以及所述待识别语音的已识别语音单元的识别结果,预测与所述当前待识别语音单元对应的音素序列;至少根据所述当前待识别语音单元对应的音素序列,对所述当前待识别语音单元进行语音识别,得到对应所述当前待识别语音单元的语音识别结果。采用上述的技术方案,能够显著提高端侧离线语音识别的识别效果。

    文本翻译方法、装置、电子设备和存储介质

    公开(公告)号:CN112686059B

    公开(公告)日:2024-04-16

    申请号:CN202011593142.5

    申请日:2020-12-29

    Abstract: 本发明提供一种文本翻译方法、装置、电子设备和存储介质,其中方法包括:确定源语言文本,以及与源语言文本相匹配的翻译文本对;将源语言文本以及翻译文本对输入至机器翻译模型,得到机器翻译模型输出的目标语言文本;机器翻译模型是基于样本源语言文本、与样本源语言文本相匹配的样本翻译文本对,以及样本源语言文本的样本目标语言文本训练得到的。本发明提供的方法、装置、电子设备和存储介质,机器翻译模型能够将翻译文本对的信息作为对源语言文本进行翻译的参考,从而优化翻译效果。且无需重新对机器翻译模型进行迭代优化,且当实际场景发生变化时,仅需累积实际场景变化后的翻译文本对即可保证机器翻译及时满足场景变化需求。

    一种机器翻译增强训练方法及系统

    公开(公告)号:CN113204978A

    公开(公告)日:2021-08-03

    申请号:CN202110523435.4

    申请日:2021-05-13

    Abstract: 本发明涉及一种机器翻译增强训练方法及系统,其方法包括:S1:获取训练数据,训练数据包括:源端句子和目标端句子;S2:分别使用源端句子和目标端句子训练源端语言模型和目标端语言模型;S3:随机选择源端句子中子词,并根据源端句子构造移位后的句子,输入源端语言模型,对移位后的句子中对应的子词进行预测,根据预测结果进行加权求和,实现对源端句子的增强;S4:根据源端句子和目标端句子的注意力权重分布,并根据源端句子中子词替换目标端句子中对应子词,利用语言模型和神经机器翻译模型联合预测结果,以实现对目标端句子的增强。本发明通过对平行训练数据进行加噪和增强,从而提升低资源条件下神经机器翻译模型的训练效果和鲁棒性。

    一种语音识别方法及其相关设备

    公开(公告)号:CN113409792B

    公开(公告)日:2024-02-13

    申请号:CN202110694320.1

    申请日:2021-06-22

    Abstract: 本申请公开了一种语音识别方法及其相关设备,该方法包括:在获取到当前语音段和该当前语音段对应的参考语音后,先依据待使用状态数据和该当前语音段对应的参考语音,对该当前语音段进行编码处理,得到该当前语音段的语音编码和该当前语音段的编码状态数据;再对该当前语音段的语音编码进行解码处理,得到该当前语音段对应的语音文本,并利用该当前语音段的编码状态数据,更新该待使用状态数据。如此能够实现边采集用户语音边进行语音识别的目的,可以提高语音识别的实时性。又因当前语音段的历史语音信息(也就是,待使用状态数据)在历史语音识别过程中已计算过,使得在当前轮语音识别过程中直接使用即可,如此有利于提高语音识别的实时性。

Patent Agency Ranking