-
公开(公告)号:CN115985301A
公开(公告)日:2023-04-18
申请号:CN202211355727.2
申请日:2022-11-01
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请实施例公开了一种对语音识别模型进行压缩的方法、装置及存储介质。其中,该方法包括:以无标签语音数据集作为第一训练数据,利用知识蒸馏算法对原始语音识别模型进行训练,得到第一语音识别模型;以无标签语音数据集和有标签语音数据集作为第二训练数据,对第一语音识别模型进行语音识别任务的微调,得到第二语音识别模型;以有标签语音数据集作为第三训练数据,利用神经网络结构搜索算法对第二语音识别模型进行训练,得到包括多个子语音识别模型的第三语音识别模型;从多个子语音识别模型中提取一个子语音识别模型,得到压缩后的语音识别模型,如此能对语音识别模型进行有效压缩,得到满足计算资源且识别精度较高的语音识别模型。
-
公开(公告)号:CN114708852B
公开(公告)日:2025-05-13
申请号:CN202210255584.1
申请日:2022-03-15
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,所述方法包括:将待识别语音的语音特征输入至语音识别模型,得到语音识别模型输出的识别文本;语音识别模型是基于领域样本语音的标签识别文本和第一识别文本之间的差异,以及第一识别文本和第二识别文本之间的差异,对学生模型进行参数迭代得到的;第一识别文本是学生模型基于领域样本语音的语音特征确定的,第二识别文本是教师模型基于领域样本语音的语音特征确定的,教师模型基于通用样本语音及其标签识别文本训练得到。本发明提供的语音识别方法、装置、电子设备和存储介质,在特定领域场景下能够准确进行语音识别。
-
公开(公告)号:CN119107940A
公开(公告)日:2024-12-10
申请号:CN202411344046.5
申请日:2024-09-25
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本发明提供一种语音识别模型的训练方法和语音识别方法,其中训练方法包括:基于语音编码网络,提取标签样本语音的语音特征,并基于解码网络解码语音特征,得到标签样本语音的对齐信息;基于文本编码网络,提取标签样本语音的标签文本的文本特征,并基于对齐信息对文本特征进行特征对齐,得到对齐文本特征,语音编码网络和文本编码网络共享部分的编码模块;基于语音特征和对齐文本特征,对语音编码网络、文本编码网络和解码网络进行参数迭代;基于参数迭代完成的语音编码网络和解码网络,构建语音识别模型。本发明提供的方法,通过多模态的训练数据的应用、以及语音编码网络和文本编码网络共享的编码模块,能够有效提升语音识别模型的泛化能力。
-
公开(公告)号:CN118748006A
公开(公告)日:2024-10-08
申请号:CN202410656002.X
申请日:2024-05-24
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请提供一种语种识别方法、装置、设备、介质及产品,该方法包括:对待识别的语音数据进行语种识别,得到语音数据对应的初始语种识别结果,初始语种识别结果包括语音数据的各个语音帧各自对应的帧级别语种识别结果;基于初始语种识别结果,确定语音数据对应的中间语种识别结果,中间语种识别结果包括语音数据中的各个语种片段;基于中间语种识别结果中的各个语种片段各自对应的帧级别语种识别结果,对各个语种片段进行合并,得到语音数据对应的语种识别结果。本申请可以提高对混合语种数据的语种识别的准确度。
-
公开(公告)号:CN116168706A
公开(公告)日:2023-05-26
申请号:CN202310197341.1
申请日:2023-02-28
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种多系统融合的语音识别方法、装置、设备及可读存储介质。本方案中,首先获取目标语音在多个语音识别系统上分别对应的候选集,然后,对获取的多个候选集进行词级别对齐处理,得到多个候选集中各候选识别结果的对齐结果;对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,得到多个候选集的融合结果;最后基于多个候选集的融合结果与多个候选集,确定目标语音的识别结果。在本方案中,每个候选识别结果的对齐结果是从多条候选对齐结果中择优选取的,对齐准确性更高,对多个候选集中各候选识别结果的对齐结果进行词级别融合处理,也更有利于得到更准确的融合结果,从而能够得到准确度更高的语音识别结果。
-
公开(公告)号:CN115116449A
公开(公告)日:2022-09-27
申请号:CN202210628912.8
申请日:2022-06-06
Applicant: 合肥讯飞数码科技有限公司
IPC: G10L17/04 , G10L17/18 , G10L21/0208
Abstract: 本申请提出一种语音增强方法、装置、设备及存储介质,该方法包括:将带噪语音输入预先训练的复合式对抗增强网络模型,得到所述复合式对抗增强网络模型输出的语音增强结果,所述语音增强结果中至少包括增强语音;其中,所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征,接近于与带噪语音对应的干净语音的声纹特征。上述方法可以在对带噪语音进行语音增强的同时,降低语音增强造成的语音失真。
-
公开(公告)号:CN114171001A
公开(公告)日:2022-03-11
申请号:CN202111481472.X
申请日:2021-12-06
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备及存储介质,其中方法包括:确定待识别语音;将所述待识别语音输入至混合语音识别模型中,得到所述混合语音识别模型输出的识别结果;所述混合语音识别模型在用于提取混合语种的语义特征的混合语义模型的基础上,应用样本混合语种语音和混合语种文本标签训练得到,所述混合语义模型基于样本混合语种文本训练得到。本发明提供的方法、装置、电子设备及存储介质,能够通过在提取混合语种的语义特征的混合语义模型的基础上训练完成的混合语音识别模型,对含有混合语种的语音进行识别,实现了在没有语种识别器的情况下,在减少系统运算量的同时对混合语种语音进行精确的识别。
-
公开(公告)号:CN115223571A
公开(公告)日:2022-10-21
申请号:CN202210683340.3
申请日:2022-06-15
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种声纹提取方法、声纹识别方法及相关装置、设备和介质,其中,声纹提取方法包括:获取由目标对象的各目标语音提取到的初始声纹特征,分别与参考声纹特征之间的差值声纹特征;从若干高斯混合模型中,确定与差值声纹特征匹配的高斯混合模型,作为差值声纹特征对应的目标混合模型;基于差值声纹特征和差值声纹特征对应的目标混合模型,分析得到信道特征,并从差值声纹特征对应的初始声纹特征中剥离信道特征,得到差值声纹特征对应的优化声纹特征;基于各差值声纹特征分别对应的优化声纹特征进行特征融合,得到目标对象的最终声纹特征。上述方案,能够尽可能地削弱声纹特征中的信道噪声,以提升声纹识别的准确性。
-
公开(公告)号:CN114842833A
公开(公告)日:2022-08-02
申请号:CN202210514378.8
申请日:2022-05-11
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种语音识别方法及相关装置、电子设备和存储介质,其中,语音识别方法包括:获取待识别语音;基于语音识别模型对待识别语音进行识别,得到识别文本;其中,语音识别模型包括编码网络和解码网络,编码网络基于样本第一干净语音经特征聚类并量化后的帧级第一量化特征、样本第一带噪语音的帧级带噪语音特征之间的对比损失训练得到,样本第一带噪语音由样本第一干净语音加噪得到,解码网络在编码网络训练收敛之后基于样本第二带噪语音进行有监督训练得到。上述方案,够在低信噪比和低资源的场景下,提升语音识别性能。
-
公开(公告)号:CN114708854A
公开(公告)日:2022-07-05
申请号:CN202210283915.2
申请日:2022-03-21
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本发明提供一种语音识别方法、装置、电子设备和存储介质,所述方法包括:确定待识别语音;基于第一语音识别模型,对待识别语音的频谱特征进行声学状态预测,得到待识别语音的第一声学状态后验概率;基于第二语音识别模型,对待识别语音的语义特征进行声学状态预测,得到待识别语音的第二声学状态后验概率;融合第一声学状态后验概率和第二声学状态后验概率,基于融合得到的融合后验概率进行语音识别解码,得到待识别语音的识别文本。本发明提供的语音识别方法、装置、电子设备和存储介质,在领域场景下能够准确进行语音识别。
-
-
-
-
-
-
-
-
-