-
公开(公告)号:CN111968650A
公开(公告)日:2020-11-20
申请号:CN202010826186.1
申请日:2020-08-17
Applicant: 科大讯飞股份有限公司
IPC: G10L17/00 , G10L17/22 , G10L21/0272
Abstract: 本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质,所述方法包括:确定待匹配话单的两个待匹配号码;将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配,得到待匹配话单中的语音数据与两个待匹配号码的匹配关系;其中,任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质,保证了语音数据与其对应主被叫号码的一致性。
-
公开(公告)号:CN111445898A
公开(公告)日:2020-07-24
申请号:CN202010187616.X
申请日:2020-03-17
Applicant: 科大讯飞股份有限公司
Abstract: 本发明实施例提供一种语种识别方法、装置、电子设备和存储介质,其中方法包括:确定待识别语音数据;将待识别语音数据输入至语种识别模型中,得到语种识别模型输出的语种识别结果;语种识别模型是基于样本语音数据、样本语音数据的语种,以及多个语种的描述文本训练得到的;多个语种包括集内语种和集外语种,集内语种为样本语音数据的语种。本发明实施例提供的语种识别方法、装置、电子设备和存储介质,语种识别模型基于集内语种和集外语种的描述文本,对待识别语音数据进行语种识别,实现了包含集外语种在内的准确的语种识别。
-
公开(公告)号:CN110164417A
公开(公告)日:2019-08-23
申请号:CN201910470489.1
申请日:2019-05-31
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语种向量获得、语种识别的方法和相关装置,该方法包括:将各个长时语音数据切分获得短时语音片段,利用全变量因子分析技术得到各个语音数据和各个语音片段的语种向量;基于各个语音数据和各个语音片段的语种向量进行时长干扰属性投影处理获得时长干扰投影矩阵;利用时长干扰投影矩阵将各个语音数据的语种向量映射为各个语音数据的新语种向量。可见,该方法充分有效挖掘长时语音数据和短时语音片段的相互关联信息。即使短时语音数据利用上述全变量空间和时长干扰投影矩阵进行时长因素补偿也能够得到更加精准、稳定的新语种向量,从而提高短时语音语种识别的准确性。
-
公开(公告)号:CN109584887A
公开(公告)日:2019-04-05
申请号:CN201811583016.4
申请日:2018-12-24
Applicant: 科大讯飞股份有限公司
Inventor: 李晋
Abstract: 本申请公开了一种声纹信息提取模型生成、声纹信息提取的方法和装置,该方法包括:获得表征训练语音数据时域与频域特性的第一训练语谱序列;打乱第一训练语谱序列的时序获得第二训练语谱序列;基于训练用户标识利用卷积神经网络对第一训练语谱序列和对应的第二训练语谱序列进行训练,生成声纹向量提取模型。可见,采用卷积神经网络将正常时序和打乱时序的训练语谱序列对应进行声纹特征训练,充分挖掘时序变化对声纹特征的干扰,卷积神经网络可联合分析训练语谱序列的时域和频域特性,较短时长训练语音数据也可进行充分的声纹特征训练,得到更加精准、稳定的声纹向量提取模型,利用该模型可提取获得精确、稳定的声纹向量,提高识别认证的准确率。
-
公开(公告)号:CN118197321A
公开(公告)日:2024-06-14
申请号:CN202410189599.1
申请日:2024-02-20
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种模型训练方法、说话人识别方法、装置、设备、介质及产品,该模型训练方法包括:在对声纹提取模型进行声纹身份预测训练的过程中,基于所述声纹提取模型的隐层声学特征,执行声学特征预测任务,得到声学特征预测结果;所述声学特征预测任务包括根据所述语音数据的第一语音帧的声学特征,预测所述语音数据的第二语音帧的声学特征;基于所述声学特征预测结果以及所述第二语音帧的真实声学特征,确定声学特征预测损失;以降低所述声学特征预测损失和所述声纹提取模型的身份预测训练损失为目标,对所述声纹提取模型进行参数优化。上述方案训练得到的声纹提取模型能够提取高精度的声纹模型,进而可以支持实现更高精度的声纹识别。
-
公开(公告)号:CN111968650B
公开(公告)日:2024-04-30
申请号:CN202010826186.1
申请日:2020-08-17
Applicant: 科大讯飞股份有限公司
IPC: G10L17/00 , G10L17/22 , G10L21/0272
Abstract: 本发明实施例提供一种语音匹配方法、装置、电子设备及存储介质,所述方法包括:确定待匹配话单的两个待匹配号码;将待匹配话单中的语音数据的声纹特征分别与两个待匹配号码的声纹特征进行匹配,得到待匹配话单中的语音数据与两个待匹配号码的匹配关系;其中,任一待匹配号码的声纹特征是对该待匹配号码的话单集中每一语音数据的声纹特征进行聚类得到的,该待匹配号码的话单集包括多个以该待匹配号码为一端、不同号码为另一端的话单。本发明实施例提供的方法、装置、电子设备及存储介质,保证了语音数据与其对应主被叫号码的一致性。
-
公开(公告)号:CN116312563A
公开(公告)日:2023-06-23
申请号:CN202310362146.X
申请日:2023-04-03
Applicant: 科大讯飞股份有限公司
Abstract: 本发明提供了一种声纹特征提取方法、装置、设备及存储介质,方法包括:获取目标语音数据的若干语谱片段;基于预先训练得到的声纹提取模型对若干语谱片段分别提取声纹特征,其中,声纹提取模型以若干时序未打乱的训练语谱片段和若干时序打乱的训练语谱片段为训练样本,以训练样本包含的各训练语谱片段分别对应的真实身份标签为样本标签,以使基于声纹提取模型对训练样本包含的每个训练语谱片段提取的声纹特征预测的身份标签与对应的真实身份标签趋于一致为目标训练得到;基于目标语音数据的若干语谱片段分别对应的声纹特征确定目标语音数据对应的声纹特征。本发明提供的声纹特征提取方法不易受语音时序的影响,可提取到较为精准鲁棒的声纹特征。
-
公开(公告)号:CN115221918A
公开(公告)日:2022-10-21
申请号:CN202210706674.8
申请日:2022-06-21
Applicant: 科大讯飞股份有限公司
Abstract: 本申请提出一种通信辐射源识别方法、装置、设备及存储介质,该方法包括:获取无线电信号的信号特征;将所述信号特征输入预先训练的通信辐射源识别模型,得到与所述无线电信号对应的通信辐射源识别结果;其中,所述通信辐射源识别模型包括特征重建子网络以及特征分类子网络,所述特征重建子网络通过将无线电信号样本的信号特征分别作为训练样本和训练标签进行特征重建训练得到。该通信辐射源识别方法大大降低了对标注样本的数量要求,能够在少量标注样本条件下达到通信辐射源识别目的,从而使得该方法能够胜任更多的通信辐射源识别任务。
-
公开(公告)号:CN115019808A
公开(公告)日:2022-09-06
申请号:CN202210616862.1
申请日:2022-06-01
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种声纹提取方法、装置、设备及可读存储介质。获取待进行声纹提取的语音数据之后,先确定语音数据对应的语谱片段,再针对每个语谱片段,对语谱片段进行声纹提取,得到语谱片段的融合有语音数据的录制环境信息的声纹表征向量;对各个语谱片段的融合环境信息的声纹表征向量进行加权平均,得到语音数据的融合有语音数据的录制环境信息的声纹表征向量。上述方案中,语音数据的声纹表征向量融合有语音数据的录制环境信息,其精准度更高,因此,采用上述方案能够消除语音数据录制环境差异对声纹信息的精准度的影响。
-
公开(公告)号:CN114333771A
公开(公告)日:2022-04-12
申请号:CN202111443833.1
申请日:2021-11-30
Applicant: 科大讯飞股份有限公司
Abstract: 本申请公开了一种语音检测方法、装置、电子设备及计算机可读存储介质,其中,该方法包括:利用特征提取网络对待检测语音进行特征提取,以得到待检测语音的编码特征向量;利用深层残差卷积网络对待检测语音的编码特征向量进行降维处理,以得到待检测语音的表征向量,其中,表征向量包含待检测语音的语音类别区分信息;根据表征向量与目标向量之间的距离,确定待检测语音的语音类别。通过上述方式,本申请能够提升语音检测的准确率。
-
-
-
-
-
-
-
-
-