-
公开(公告)号:CN112699690B
公开(公告)日:2024-02-13
申请号:CN202011591157.8
申请日:2020-12-29
Applicant: 科大讯飞股份有限公司
IPC: G06F40/42 , G06N3/0464 , G06N3/0455 , G06N3/08 , G10L15/06 , G10L15/22
Abstract: 本发明提供一种语音翻译模型的训练方法、翻译方法、电子设备、存储介质,语音翻译模型包括级联的语音识别模型以及文本翻译模型,训练方法包括:获取到语音样本数据、语音样本数据的语音识别结果以及文本翻译结果;利用语音样本数据、语音识别结果对初始语音识别模型进行训练,以得到语音识别模型;通过语音识别模型对语音样本数据进行语音预测,得到语音样本数据中每个词的识别概率;利用语音样本数据中每个词的识别概率以及文本翻译结果对初始文本翻译模型进行训练,得到文本翻译模型,语音识别模型以及文本翻译模型级联得到语音翻译模型。通过将语音识别模型和文本翻译模型联合训练,解决分阶段进行语音翻译的方法的错误传递问题。
-
公开(公告)号:CN109657250B
公开(公告)日:2023-12-05
申请号:CN201811518142.1
申请日:2018-12-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种文本翻译方法、装置、设备及可读存储介质,本申请首先确定待翻译文本中的稀疏词,获取所述稀疏词的解释信息,所述解释信息为使用通用词汇对所述稀疏词的通用性解释,进一步根据所述解释信息,确定所述稀疏词在所述待翻译文本中的词向量表示,最后将所述待翻译文本中所述稀疏词的词向量及除稀疏词外的其余词的词向量进行编解码翻译。由此可见,本申请根据稀疏词的解释信息确定稀疏词的词向量,由此对待翻译文本中所有词的词向量进行编解码,得到的翻译结果能够正确且清楚的表达待翻译文本完整的语义内容,克服了现有机器翻译方法中由于稀疏词难以训练得到词向量导致的语义表达不正确或不完整的缺点。
-
公开(公告)号:CN110083837B
公开(公告)日:2023-11-24
申请号:CN201910344875.6
申请日:2019-04-26
Applicant: 科大讯飞股份有限公司
IPC: G06F40/289 , G06F40/58 , G10L15/26
Abstract: 本申请公开了一种关键词生成方法及装置,该方法包括:当生成了目标语音的识别文本之后,从该识别文本中提取出各个历史关键词,以及生成与各个历史关键词具有强关联性的联想关键词。其中,与历史关键词具有强相关性的联想关键词能够提示翻译人员在未来待翻译内容中可能出现的关键词,从而节省了翻译人员投入到预测未来待翻译内容所需的精力。如此,当翻译人员在联想关键词的辅助下进行翻译时,能够投入更多的精力在语言的组织和表达上,从而提升了翻译速度和翻译质量。
-
-
公开(公告)号:CN116631439A
公开(公告)日:2023-08-22
申请号:CN202310545889.0
申请日:2023-05-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音检测方法及装置、电子设备和存储介质,该方法包括:获取待检测语音,并获取语音检测模型;其中,对用于语音特征提取的教师模型进行知识蒸馏得到经预训练的特征提取网络,并至少基于经预训练的特征提取网络和初始的特征映射网络,得到初始检测模型,以及基于初始检测模型在训练过程中经特征映射网络映射前后的特征差异,调整特征映射网络的网络参数,得到语音检测模型;基于语音检测模型对待检测语音进行检测,得到表征待检测语音是否为真实语音的检测结果。通过上述方式,本申请能够提高语音检测的准确度。
-
公开(公告)号:CN116453524A
公开(公告)日:2023-07-18
申请号:CN202310444675.4
申请日:2023-04-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,并提取其声学特征,然后利用该声学特征,构建目标语音对应的声学特征语谱图,并按照预设窗长,将声学特征语谱图切分成N个语谱图片段;接着将N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量;进而根据目标声纹特征向量,对目标说话人进行识别,得到目标说话人的识别结果。由于本申请是通过先使用原始特征域和谱增广特征域下的声学特征,结合跨域特征信息共同训练构建了说话人识别模型,有效提升了模型的声纹特征提取效果,从而在利用该说话人识别模型进行说话人识别时,可以有效提高识别结果的准确率。
-
公开(公告)号:CN116403603A
公开(公告)日:2023-07-07
申请号:CN202310492726.0
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种假音检测方法、假音检测模型获取方法及相关设备,假音检测方法包括:获取目标语音;基于预先获得的目标假音检测模型,检测目标语音是否为假音,目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到,构建的假音检测模型包括语音编码器、根据语音编码器的输出获取说话人表征的说话人表征模块、根据语音编码器的输出获取假音表征的假音表征模块,以及根据说话人表征模块的输出和假音表征模块的输出进行语音分类的语音分类模块,说话人表征模块通过结合说话人分类任务,辅以语音编码器训练得到,语音编码器为通过预训练获得的语音预训练模型。本发明提供的假音检测方法可准确地检测出语音是否为假音。
-
公开(公告)号:CN115062633A
公开(公告)日:2022-09-16
申请号:CN202210688236.3
申请日:2022-06-16
Applicant: 科大讯飞股份有限公司
IPC: G06F40/58 , G06F40/30 , G06F40/289
Abstract: 本发明提供一种平行句对构建方法、装置、电子设备和存储介质,其中方法包括:获取第一语句和第二语句,第一语句和第二语句对应不同语种;基于跨语种语言模型,确定第一语句的第一语义特征和第二语句的第二语义特征,跨语种语言模型是基于第一样本语句中各分词与第二样本语句中各分词之间的词义关系训练得到的,第一样本语句和第二样本语句对应不同语种;基于第一语义特征和第二语义特征之间的相似度,构建平行句对,本发明实施例中,应用不同语种的样本语句各自包含的分词之间的词义关系,进行模型训练,能够使训练所得的模型性能更优,在面向稀缺资源语言时,提升了句子嵌入的准确度,精进了平行句对的构建过程,实现了平行句对构建质量的提升。
-
公开(公告)号:CN111445898B
公开(公告)日:2022-05-17
申请号:CN202010187616.X
申请日:2020-03-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种语种识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别语音数据;将待识别语音数据输入至语种识别模型中,得到语种识别模型输出的语种识别结果;语种识别模型是基于样本语音数据、样本语音数据的语种,以及多个语种的描述文本训练得到的;多个语种包括集内语种和集外语种,集内语种为样本语音数据的语种。本发明实施例提供的语种识别方法、装置、电子设备和存储介质,语种识别模型基于集内语种和集外语种的描述文本,对待识别语音数据进行语种识别,实现了包含集外语种在内的准确的语种识别。
-
公开(公告)号:CN110491393B
公开(公告)日:2022-04-22
申请号:CN201910817491.1
申请日:2019-08-30
Applicant: 科大讯飞股份有限公司 , 咪咕数字传媒有限公司
Abstract: 本申请实施例公开了一种声纹表征模型的训练方法及装置,所述方法包括如下步骤:将语音数据集的多条语音数据执行特征提取操作,得到多个原始语音特征;将所述多个原始语音特征执行声纹表征操作、内容识别操作以及语音合成操作得到多个合成语音特征;依据所述多个合成语音特征和所述多个原始语音特征构建损失函数,依据所述损失函数对初始声纹表征模型的参数进行更新得到训练后的声纹表征模型。本申请提供的技术方案具有成本低的优点。
-
-
-
-
-
-
-
-
-