-
公开(公告)号:CN114333771A
公开(公告)日:2022-04-12
申请号:CN202111443833.1
申请日:2021-11-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音检测方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:利用特征提取网络对待检测语音进行特征提取,以得到待检测语音的编码特征向量;利用深层残差卷积网络对待检测语音的编码特征向量进行降维处理,以得到待检测语音的表征向量,其中,表征向量包含待检测语音的语音类别区分信息;根据表征向量与目标向量之间的距离,确定待检测语音的语音类别。通过上述方式,本申请能够提升语音检测的准确率。
-
公开(公告)号:CN107886949B
公开(公告)日:2021-04-30
申请号:CN201711195319.4
申请日:2017-11-24
Applicant: 科大讯飞股份有限公司
IPC: G10L15/22 , H04L29/08 , G06F16/9535
Abstract: 本发明实施例提供一种内容推荐方法及装置,所述方法包括:获取目标用户的语音请求数据,提取所述语音请求数据中对应的交互推荐特征;根据所述交互推荐特征,在预先构建的与所述目标用户对应的推荐知识库中获取相应的推荐内容并发送给所述目标用户;其中,所述推荐知识库中包括多个对应关系模型;且所述各对应关系模型分别基于从各历史用户的样本语音请求数据中提取的交互推荐特征及和所述各历史用户相对应的推荐内容建立。所述方法大大方便了用户使用的同时,结合了目标用户请求的声学、语义、用户属性及说话人信息,从而进一步提高了内容推荐的准确度。
-
公开(公告)号:CN108198574A
公开(公告)日:2018-06-22
申请号:CN201711475093.3
申请日:2017-12-29
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供的变声检测方法及装置,获取待与目标对象进行认证匹配的待测语音数据;利用预置的变声检测模型,确定与所述待测语音数据匹配的待测声纹特征信息,以及语音伪造判决结果;确定所述待测声纹特征信息与所述目标对象已注册的声纹特征信息的相似度,得到声纹相似度;根据所述语音伪造判决结果以及所述声纹相似度,确定所述待测语音数据是否为人工伪造的变声语音数据。本发明利用变声检测模型来确定与所述待测语音数据匹配的待测声纹特征信息,以及语音伪造判决结果,进而来实现待测语音数据的检测,大幅提高了待测语音数据的检测效率以及检测结果的精准度。
-
公开(公告)号:CN112133291B
公开(公告)日:2024-02-13
申请号:CN201910487339.1
申请日:2019-06-05
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语种识别模型训练、语种识别的方法和相关装置,该方法包括:语种标签和随机噪声输入生成网络获得伪语种向量;训练语音数据的语种特征输入神经网络获得真语种向量;将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签;基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征,语种标签降低网络收敛难度;神经网络与判别网络处理训练语音数据的语种特征,降低生成网络的模拟复杂度;时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量,提高短时语音语种识别的精度和准确度。
-
公开(公告)号:CN113140222B
公开(公告)日:2023-08-01
申请号:CN202110505478.X
申请日:2021-05-10
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种声纹向量提取方法、装置、设备及存储介质,方法包括:获取目标语音数据对应的语谱片段序列,基于语谱片段序列和预先建立的第一声纹提取模型确定声纹向量,第一声纹提取模型以第一训练语谱片段为训练样本,采用第二声纹提取模型辅助训练得到,第一声纹提取模型的训练目标包括:使基于第一声纹向量和第二声纹向量分别针对设定身份标签预测的概率趋于一致,第一声纹向量为第一声纹提取模型针对第一训练语谱片段提取的声纹向量,第二声纹向量为第二声纹提取模型针对第二训练语谱片段提取的声纹向量,第二训练语谱片段为对第一训练语谱片段的时序进行打乱后的语谱片段。本申请提供的声纹向量提取方法不受语音时序信息的干扰。
-
公开(公告)号:CN116453524A
公开(公告)日:2023-07-18
申请号:CN202310444675.4
申请日:2023-04-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种说话人识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,并提取其声学特征,然后利用该声学特征,构建目标语音对应的声学特征语谱图,并按照预设窗长,将声学特征语谱图切分成N个语谱图片段;接着将N个语谱图片段输入至预先构建的说话人识别模型,识别得到目标说话人的目标声纹特征向量;进而根据目标声纹特征向量,对目标说话人进行识别,得到目标说话人的识别结果。由于本申请是通过先使用原始特征域和谱增广特征域下的声学特征,结合跨域特征信息共同训练构建了说话人识别模型,有效提升了模型的声纹特征提取效果,从而在利用该说话人识别模型进行说话人识别时,可以有效提高识别结果的准确率。
-
公开(公告)号:CN111445898B
公开(公告)日:2022-05-17
申请号:CN202010187616.X
申请日:2020-03-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种语种识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别语音数据;将待识别语音数据输入至语种识别模型中,得到语种识别模型输出的语种识别结果;语种识别模型是基于样本语音数据、样本语音数据的语种,以及多个语种的描述文本训练得到的;多个语种包括集内语种和集外语种,集内语种为样本语音数据的语种。本发明实施例提供的语种识别方法、装置、电子设备和存储介质,语种识别模型基于集内语种和集外语种的描述文本,对待识别语音数据进行语种识别,实现了包含集外语种在内的准确的语种识别。
-
公开(公告)号:CN109448732B
公开(公告)日:2021-06-08
申请号:CN201811609029.4
申请日:2018-12-27
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提供了一种数字串语音处理方法及装置,其中,方法包括:获取目标数字串语音;基于整个目标数字串语音和预先建立的身份向量确定模型,确定目标数字串语音中各个数字对应的目标数字身份向量,所有目标数字身份向量组成目标数字串语音对应的数字声纹模型,其中,身份向量确定模型采用数字串语音训练得到,数字声纹模型中包含训练数字串语音中数字串的结构化信息。本申请提供的数字串语音处理方法能够确定出稳定、精准的数字声纹模型。
-
公开(公告)号:CN112133291A
公开(公告)日:2020-12-25
申请号:CN201910487339.1
申请日:2019-06-05
Applicant: 科大讯飞股份有限公司 , 赵佰军
Abstract: 本申请公开了一种语种识别模型训练、语种识别的方法和相关装置,该方法包括:语种标签和随机噪声输入生成网络获得伪语种向量;训练语音数据的语种特征输入神经网络获得真语种向量;将伪语种向量和真语种向量分别输入判别网络获得判别概率和预测语种标签;基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型。生成网络与判别网络基于随机噪声辅以语种标签模拟语种特征分布增强语种特征,语种标签降低网络收敛难度;神经网络与判别网络处理训练语音数据的语种特征,降低生成网络的模拟复杂度;时长较短语音数据通过语种识别模型能够得到更加精准、稳定的语种向量,提高短时语音语种识别的精度和准确度。
-
-
-
-
-
-
-
-