-
公开(公告)号:CN116312500A
公开(公告)日:2023-06-23
申请号:CN202310312705.6
申请日:2023-03-28
Applicant: 科大讯飞股份有限公司
Abstract: 本申请涉及一种语音识别方法、装置、系统及存储介质,所述方法包括:获取待识别语音的声学特征和热词的字素向量和音素向量;基于所述声学特征得到第一编码器输出;基于所述字素向量得到第一解码器输出;基于所述字素向量和所述音素向量,利用最优化传输进行迭代更新,得到上下文词向量;基于所述第一解码器输出和所述上下文词向量得到第二解码器输出;基于所述第一编码器输出和所述上下文词向量得到第二编码器输出;基于所述第二解码器输出和所述第二编码器输出得到后验概率分布,以得到语音识别结果。本申请具有减少信息损失、提高准确性的效果。
-
公开(公告)号:CN114861885A
公开(公告)日:2022-08-05
申请号:CN202210550915.4
申请日:2022-05-20
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种基于知识蒸馏的模型训练方法、相关设备及可读存储介质。在获取教师模型、学生模型、训练数据以及训练数据的标注标签之后;以训练数据为训练样本,以学生模型中间网络层的输出分布趋近于教师模型中间网络层的输出分布,学生模型的最终输出分布趋近于教师模型的最终输出分布,且学生模型的最终输出趋近于训练数据的标注标签为训练目标,对待训练的学生模型进行训练,得到训练好的学生模型。由于在训练过程中,同时利用教师模型中间网络层的输出和最终输出指导学生模型的学习,能够使学生模型中间网络层的输出与教师模型中间网络层的输出尽可能接近,从而保证了学生模型的最终输出与教师模型的最终输出也尽可能接近。
-
公开(公告)号:CN117894295A
公开(公告)日:2024-04-16
申请号:CN202311829639.6
申请日:2023-12-26
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种语音识别方法、装置、电子设备及存储介质,该方法包括:对待识别语音的第一语音特征进行设定级别的特征提取处理,得到设定级别的语音特征;设定级别包括:帧级别和/或片段级别;基于设定级别的语音特征,预测待识别语音的属性信息,属性信息包括:方言类型信息和语音距离信息中的至少一种;基于第一语音特征、设定级别的语音特征和待识别语音的属性信息,预测待识别语音的语音识别结果。采用本申请的技术方案,能够预先预测出语音的方言类型信息和语音距离信息,直接基于预测出的方言类型信息和/或语音距离信息进行语音识别,无需手动切换方言包以及语音距离的识别模块,提高了语音识别的便捷性。
-
公开(公告)号:CN116631439A
公开(公告)日:2023-08-22
申请号:CN202310545889.0
申请日:2023-05-12
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音检测方法及装置、电子设备和存储介质,该方法包括:获取待检测语音,并获取语音检测模型;其中,对用于语音特征提取的教师模型进行知识蒸馏得到经预训练的特征提取网络,并至少基于经预训练的特征提取网络和初始的特征映射网络,得到初始检测模型,以及基于初始检测模型在训练过程中经特征映射网络映射前后的特征差异,调整特征映射网络的网络参数,得到语音检测模型;基于语音检测模型对待检测语音进行检测,得到表征待检测语音是否为真实语音的检测结果。通过上述方式,本申请能够提高语音检测的准确度。
-
公开(公告)号:CN116403603A
公开(公告)日:2023-07-07
申请号:CN202310492726.0
申请日:2023-04-28
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种假音检测方法、假音检测模型获取方法及相关设备,假音检测方法包括:获取目标语音;基于预先获得的目标假音检测模型,检测目标语音是否为假音,目标假音检测模型采用标注有语音类别的训练语音对构建的假音检测模型训练得到,构建的假音检测模型包括语音编码器、根据语音编码器的输出获取说话人表征的说话人表征模块、根据语音编码器的输出获取假音表征的假音表征模块,以及根据说话人表征模块的输出和假音表征模块的输出进行语音分类的语音分类模块,说话人表征模块通过结合说话人分类任务,辅以语音编码器训练得到,语音编码器为通过预训练获得的语音预训练模型。本发明提供的假音检测方法可准确地检测出语音是否为假音。
-
公开(公告)号:CN119418687A
公开(公告)日:2025-02-11
申请号:CN202411462135.X
申请日:2024-10-18
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种音频生成方法、装置、电子设备和计算机程序产品,能够获取待处理文本和音频风格信息,其中,音频风格信息用于指示待生成的目标音频对应的音频风格,然后将待处理文本和音频风格信息均输入到预先训练的音频编辑模型中,得到音频编辑模型输出的、与待处理文本和音频风格信息对应的离散编码,通过对离散编码进行解码处理,得到目标音频。如此设置,利用音频编辑模型输出与待处理文本和音频风格信息对应的离散编码,通过对离散编码解码生成内容风格均符合要求的音频,大大降低了音视频编辑难度,提高了用户的创作效率。
-
公开(公告)号:CN119107961A
公开(公告)日:2024-12-10
申请号:CN202411203986.2
申请日:2024-08-29
Applicant: 华为技术有限公司 , 科大讯飞股份有限公司
IPC: G10L21/013 , G10L25/30
Abstract: 本发明实施例公开了一种信息处理方法和设备,信息处理方法应用于包含信息处理模型的信息处理设备;所述方法包括:接收用户的第一信息,第一信息包含第一音频,第一音频为待修复音频;所述信息处理模型根据所述第一信息得到第二信息,所述第二信息包含所述第一音频对应的第一语义特征,所述第一语义特征为所述第一音频中第一帧数的音频进行语义修复后的语义特征;所述信息处理模型根据所述用户的声纹特征和所述第二信息得到第二音频。能够实现实时的声音修复。
-
公开(公告)号:CN118982986A
公开(公告)日:2024-11-19
申请号:CN202411007495.0
申请日:2024-07-25
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、设备和存储介质,其中,语音识别方法包括:基于待识别语音的语音特征,得到声学编码特征、帧级发音特征和段级发音特征;基于声学编码特征进行预测,得到待识别语音的预测发音序列,并基于预测发音序列,提取得到文本编码特征;获取声学编码特征与帧级发音特征的第一融合特征,并获取文本编码特征与段级发音特征的第二融合特征;基于第一融合特征和第二融合特征进行解码,得到待识别语音的语音识别文本。上述方案,能够提升语音识别的准确性。
-
公开(公告)号:CN116994591A
公开(公告)日:2023-11-03
申请号:CN202311130675.3
申请日:2023-09-04
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供一种语音识别方法、装置、设备以及计算机可读介质,该方法通过获取语音信号;将语音信号输入到初始系统的预训练模型中,由预训练模型将语音信号转化为语音表示向量;将语音表示向量输入至初始系统中的说话人识别模型,得到嵌入向量;将语音表示向量输入至初始系统的语音识别模型中,由语音识别模型对嵌入向量和语音表示向量进行融合处理,得到融合特征向量;根据融合特征向量和实际的语音识别结果对初始系统中的模型进行训练,得到语音识别系统。由于嵌入向量是通过语音表示向量得到的,因此嵌入向量和语音表示向量的融合不存在特征不匹配现象,进而提升了训练出的语音识别系统的准确性。
-
-
-
-
-
-
-
-