-
公开(公告)号:CN114203169A
公开(公告)日:2022-03-18
申请号:CN202210094152.7
申请日:2022-01-26
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请提供了一种语音识别结果确定方法、装置、设备及存储介质,其中,方法包括:获取目标语音在多个语音识别系统上分别对应的候选集,其中,目标语音在一个语音识别系统上对应的候选集包括基于该语音识别系统获得的若干候选识别结果;将获取的多个候选集两两组合,以得到若干组候选集;确定若干组候选集分别对应的相似性信息,并基于若干组候选集分别对应的相似性信息,从多个候选集中确定目标语音的识别结果,其中,相似性信息为对应的两个候选集中的第一候选集包含的候选识别结果与第二候选集包含的候选识别结果的句子级别的相似性信息。通过本申请提供的语音识别结果确定方法能够较快地确定出准确度较高的语音识别结果。
-
公开(公告)号:CN113488023A
公开(公告)日:2021-10-08
申请号:CN202110770019.4
申请日:2021-07-07
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种语种识别模型构建方法、语种识别方法,先利用第一样本语音及其实际语种、第二样本语音,针对待训练教师模型和待训练学生模型进行两阶段训练,得到待使用教师模型和待使用学生模型,以使该待使用教师模型和该待使用学生模型均具有较好的语种识别性能;再根据该待使用学生模型确定语种识别模型,以使该语种识别模型也具有较好的语种识别性能;最后,借助该语种识别模型针对待识别语音进行语种识别,得到该待识别语音的预测语种。其中,因无标签训练数据能够弥补带标签训练数据中数据分布失衡的缺陷,使得基于带标签训练数据和无标签训练数据进行构建的语种识别模型具有较好的语种识别性能,如此能够提高语种识别准确性。
-
公开(公告)号:CN119763617A
公开(公告)日:2025-04-04
申请号:CN202411674966.3
申请日:2024-11-21
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本发明提供一种有效语音检测方法及装置,所述方法包括:基于特征提取模型,提取待检测音频信号的音频特征;基于第一有效语音识别模型,应用音频特征,确定音频信号中的有效语音信号;特征提取模型和第一有效语音识别模型构成第一检测模型,第一检测模型在训练阶段与语音理解模型联合训练,语音理解模型以特征提取模型提取的音频特征作为输入,用于预测语音内容,联合训练的总损失值包括第一检测模型的有效语音检测损失值以及语音理解模型的语音理解损失值。本发明通过语音理解任务辅助训练第一检测模型,可以避免第一检测模型漏检有效语音,也即提升第一检测模型检测有效语音能力。
-
公开(公告)号:CN118351872A
公开(公告)日:2024-07-16
申请号:CN202410262433.8
申请日:2024-03-07
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请提供了语种识别方法、装置、设备、存储介质及程序产品,该方法包括:获取待处理音频数据;将所述待处理音频数据输入至语种识别模型,得到所述待处理音频数据对应的目标语种;其中,所述语种识别模型是根据伪语种向量和音频样本集合中各个音频样本对应的音频特征向量进行语种识别训练得到的,其中,所述伪语种向量是对所述音频样本集合中第一音频样本对应的第一音频特征向量进行转换处理得到的,所述伪语种向量与所述音频样本集合中第二音频样本对应的第二音频特征向量的方向相同,所述第一音频样本和所述第二音频样本是不同的语种音频。根据本申请的技术方案,能够有效提升语种识别的准确性。
-
公开(公告)号:CN117953922A
公开(公告)日:2024-04-30
申请号:CN202410102863.3
申请日:2024-01-24
Applicant: 合肥讯飞数码科技有限公司
IPC: G10L25/69 , G10L25/03 , G10L19/18 , G10L19/022
Abstract: 本发明提供一种合成音频检测方法、装置、电子设备和存储介质,涉及合成音频技术领域。其中方法包括:将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征;将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果;其中,所述合成音频检测模型是基于真实音频样本、伪造音频样本、所述真实音频样本对应的合成音频检测结果标签、所述伪造音频样本对应的合成音频检测结果标签和所述伪造音频样本对应的合成算法标签训练得到的,所述合成算法标签为合成所述伪造音频样本的合成算法。本发明可以提高合成音频检测模型的泛化性。
-
公开(公告)号:CN116343782A
公开(公告)日:2023-06-27
申请号:CN202310327804.1
申请日:2023-03-30
Applicant: 合肥讯飞数码科技有限公司
IPC: G10L15/20 , G10L21/0208 , G10L21/0232
Abstract: 本申请提供一种音频数据的处理方法、装置、设备以及计算机可读介质,该方法通过获取原始音频数据的有效音音频数据和无效音音频数据;其中,有效音音频数据为原始音频数据中能够被识别的音频数据;无效音音频数据为原始音频数据中不能够被识别的音频数据;通过傅里叶变换将有效音音频数据由时间域转换为频率域,得到原始音频数据的有效音特征数据;并通过傅里叶变换将无效音音频数据由时间域转换为频率域,得到原始音频数据的无效音特征数据;使用原始音频数据的无效音特征数据对原始音频数据的有效音特征数据进行抵消处理,得到处理后的有效音特征数据,处理后的有效音特征数据不具有无效音的特征信息,提高了有效音的质量。
-
公开(公告)号:CN116153297A
公开(公告)日:2023-05-23
申请号:CN202211410906.1
申请日:2022-11-11
Applicant: 合肥讯飞数码科技有限公司
IPC: G10L15/06 , G10L15/16 , G10L15/183
Abstract: 本申请公开了一种低资源语音识别模型训练方法、相关设备及可读存储介质。先从无监督低资源语音数据中筛选出标注价值高的目标无监督低资源语音数据;然后,对目标无监督低资源语音数据进行标注,得到有监督低资源语音数据;最后,利用无监督低资源语音数据以及有监督低资源语音数据,对基础预训练模型进行训练得到低资源语音识别模型。本方案中,先从无监督低资源语音数据中筛选出标注价值高的数据再进行标注得到有监督低资源语音数据,使得得到的有监督低资源语音数据的质量较高,而且,无监督低资源语音数据在训练过程中也得到了更为充分的利用,因此,训练得到的低资源语音识别模型在实际应用场景中的性能会有所提升。
-
公开(公告)号:CN111081221B
公开(公告)日:2022-10-14
申请号:CN201911342455.0
申请日:2019-12-23
Applicant: 合肥讯飞数码科技有限公司
IPC: G10L15/06
Abstract: 本申请提供了一种训练数据选择方法、装置、电子设备及计算机存储介质,首先将备选语料库中的备选声学特征数据输入基础声学模型,根据所述基础声学模型的输出确定所述备选声学特征数据对应的后验概率数据;接着,根据所述后验概率数据计算所述备选声学特征数据对应的信息熵数据;然后,根据所述信息熵数据确定所述备选声学特征数据对应的相对熵数据;最后,根据所述相对熵数据从所述备选声学特征数据中选取训练数据。可以根据信息熵数据和相对熵数据来选取对模型而言信息量较大的训练数据,从而实现少量优选的训练数据的训练效果也能满足模型的训练需求,减少对无用训练数据的重复标注,大大节省了人力物力。
-
公开(公告)号:CN111724766A
公开(公告)日:2020-09-29
申请号:CN202010607693.6
申请日:2020-06-29
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本申请公开了一种语种识别方法、相关设备及可读存储介质,在获取待识别的语音数据之后,确定该语音数据的语种特征;利用预先建立的第一语种识别模型对该语音数据的语种特征进行第一次识别,得到第一次语种识别结果;当第一次语种识别结果不准确时,利用预先建立的第二语种识别模型对该语音数据的语种特征进行第二次识别,得到第二次语种识别结果,并基于第一次语种识别结果和第二次语种识别结果,确定该语音数据的语种。上述方案中,如果第一次语种识别结果不准确,可以利用比第一语种识别模型的网络层数多的第二语种识别模型进行第二次识别,从而提升识别准确率。
-
公开(公告)号:CN119479699A
公开(公告)日:2025-02-18
申请号:CN202510026166.9
申请日:2025-01-08
Applicant: 合肥讯飞数码科技有限公司
Abstract: 本发明涉及语音处理技术领域,提供一种语音推荐、模型训练方法、装置、电子设备和存储介质,其中语音推荐方法包括:获取候选语音;将候选语音输入重要度表征模型,得到重要度表征模型基于候选语音的文本内容特征和/或说话人特征输出的候选语音的重要度特征;重要度表征模型是经过多个任务的训练得到的,多个任务包括基于文本内容特征的语音识别任务和/或基于说话人特征的说话人识别任务,以及基于重要度特征的重要性分类任务;基于候选语音的重要度特征,进行语音推荐。本发明提供的方法、装置、电子设备和存储介质,从文本内容和/或说话人信息,以及是否重要反映候选语音的重要度,使重要度的衡量更加全面,能够保证语音推荐的准确性。
-
-
-
-
-
-
-
-
-