声纹提取方法、声纹识别方法及相关装置、设备和介质

    公开(公告)号:CN115223571A

    公开(公告)日:2022-10-21

    申请号:CN202210683340.3

    申请日:2022-06-15

    Abstract: 本申请公开了一种声纹提取方法、声纹识别方法及相关装置、设备和介质,其中,声纹提取方法包括:获取由目标对象的各目标语音提取到的初始声纹特征,分别与参考声纹特征之间的差值声纹特征;从若干高斯混合模型中,确定与差值声纹特征匹配的高斯混合模型,作为差值声纹特征对应的目标混合模型;基于差值声纹特征和差值声纹特征对应的目标混合模型,分析得到信道特征,并从差值声纹特征对应的初始声纹特征中剥离信道特征,得到差值声纹特征对应的优化声纹特征;基于各差值声纹特征分别对应的优化声纹特征进行特征融合,得到目标对象的最终声纹特征。上述方案,能够尽可能地削弱声纹特征中的信道噪声,以提升声纹识别的准确性。

    一种伪造音频的检测方法及其检测系统和存储介质

    公开(公告)号:CN113409771A

    公开(公告)日:2021-09-17

    申请号:CN202110573557.4

    申请日:2021-05-25

    Abstract: 本申请公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质,该方法包括:获取待测音频和真实音频;提取待测音频和真实音频中属于共用音素状态的音频部分,其中,共用音素状态为待测音频和真实音频中均存在的音素状态,音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分;基于第一音频部分和第二音频部分之间的特征相似度,确定待测音频是否为伪造音频。通过上述方式,本申请能够提高对音频真伪检测的准确度,从而实现有效地鉴别音频的真假。

    语音标注质量评价方法、装置、电子设备和存储介质

    公开(公告)号:CN115527551A

    公开(公告)日:2022-12-27

    申请号:CN202211139461.8

    申请日:2022-09-19

    Abstract: 本发明提供一种语音标注质量评价方法、装置、电子设备和存储介质,所述方法包括:确定原始语音的标注文本;基于标注文本进行语音合成,得到合成语音;对原始语音进行语音识别,得到原始语音文本表征以及原始识别文本;对合成语音进行语音识别,得到合成语音文本表征以及合成识别文本;基于原始语音文本表征与合成语音文本表征之间的特征相似度,和/或,原始识别文本与合成识别文本之间的文本编辑距离,确定标注质量评价结果。本发明提供的语音标注质量评价方法、装置、电子设备和存储介质,能够准确确定标注质量评价结果,从而可以快速筛选出不合格的标注文本,极大提升了标注文本的核查效率,同时极大节省了人力及时间成本。

    一种语种识别方法、装置、存储介质及设备

    公开(公告)号:CN115240641A

    公开(公告)日:2022-10-25

    申请号:CN202210887015.9

    申请日:2022-07-26

    Abstract: 本申请公开了一种语种识别方法、装置、存储介质及设备,该方法包括:首先获取目标语音并提取其声学特征;然后将目标语音的声学特征输入至预先构建的语种识别模型,识别得到目标语音的语种识别结果,其中,语种识别模型中的骨干网络是利用不同语种的多信道来源的语音数据和第一目标函数共同训练得到的;注意力层和线性全连接层是基于骨干网络,利用不同语种的类平衡采样的语音数据和第二目标函数共同训练得到的。可见,本申请是先利用不同语种的多信道来源的语音数据和目标函数构建了语种识别模型,再将目标语音的声学特征输入该识别模型,既保证了各语种语音的识别准确率,又避免了因为信道干扰对识别结果产生的影响,从而提高了语种识别效果。

    有效语音检测方法及装置
    6.
    发明公开

    公开(公告)号:CN119763617A

    公开(公告)日:2025-04-04

    申请号:CN202411674966.3

    申请日:2024-11-21

    Abstract: 本发明提供一种有效语音检测方法及装置,所述方法包括:基于特征提取模型,提取待检测音频信号的音频特征;基于第一有效语音识别模型,应用音频特征,确定音频信号中的有效语音信号;特征提取模型和第一有效语音识别模型构成第一检测模型,第一检测模型在训练阶段与语音理解模型联合训练,语音理解模型以特征提取模型提取的音频特征作为输入,用于预测语音内容,联合训练的总损失值包括第一检测模型的有效语音检测损失值以及语音理解模型的语音理解损失值。本发明通过语音理解任务辅助训练第一检测模型,可以避免第一检测模型漏检有效语音,也即提升第一检测模型检测有效语音能力。

    语种识别方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN118351872A

    公开(公告)日:2024-07-16

    申请号:CN202410262433.8

    申请日:2024-03-07

    Abstract: 本申请提供了语种识别方法、装置、设备、存储介质及程序产品,该方法包括:获取待处理音频数据;将所述待处理音频数据输入至语种识别模型,得到所述待处理音频数据对应的目标语种;其中,所述语种识别模型是根据伪语种向量和音频样本集合中各个音频样本对应的音频特征向量进行语种识别训练得到的,其中,所述伪语种向量是对所述音频样本集合中第一音频样本对应的第一音频特征向量进行转换处理得到的,所述伪语种向量与所述音频样本集合中第二音频样本对应的第二音频特征向量的方向相同,所述第一音频样本和所述第二音频样本是不同的语种音频。根据本申请的技术方案,能够有效提升语种识别的准确性。

    合成音频检测方法、装置、电子设备和存储介质

    公开(公告)号:CN117953922A

    公开(公告)日:2024-04-30

    申请号:CN202410102863.3

    申请日:2024-01-24

    Abstract: 本发明提供一种合成音频检测方法、装置、电子设备和存储介质,涉及合成音频技术领域。其中方法包括:将待检测音频输入至合成音频检测模型中的特征提取层,得到所述特征提取层输出的音频特征;将所述音频特征输入至所述合成音频检测模型中的合成音频检测层,得到所述合成音频检测层输出的合成音频检测结果;其中,所述合成音频检测模型是基于真实音频样本、伪造音频样本、所述真实音频样本对应的合成音频检测结果标签、所述伪造音频样本对应的合成音频检测结果标签和所述伪造音频样本对应的合成算法标签训练得到的,所述合成算法标签为合成所述伪造音频样本的合成算法。本发明可以提高合成音频检测模型的泛化性。

    自动声纹建模入库方法、装置以及设备

    公开(公告)号:CN111414511B

    公开(公告)日:2023-08-22

    申请号:CN202010219084.3

    申请日:2020-03-25

    Abstract: 本发明公开了一种自动声纹建模入库方法、装置以及设备。本发明的构思在于,面向说话人声纹建模的需求,提供出一套针对海量语料的数据切割思路,从而实现海量语料的主题化、层次化,进而完成利用海量语料进行声纹建模入库的任务。具体是利用约减思路,基于多维信息对海量数据进行初始的过滤、区分,然后采用多阶段叠加的共识聚类思想,对精简后的语料数据进行阶段性递进的归类提纯操作,最终获得可用来进行声纹建模的语料。本发明无需投入大量人工成本进行标注,且避免了直接对海量数据进行无差别声纹对撞聚类可能导致的错误率逐级下传、影响建模语料纯度、最终导致无法实现声纹建模入库的问题。

    一种伪造音频的检测方法及其检测系统和存储介质

    公开(公告)号:CN113409771B

    公开(公告)日:2022-08-12

    申请号:CN202110573557.4

    申请日:2021-05-25

    Abstract: 本申请公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质,该方法包括:获取待测音频和真实音频;提取待测音频和真实音频中属于共用音素状态的音频部分,其中,共用音素状态为待测音频和真实音频中均存在的音素状态,音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分;基于第一音频部分和第二音频部分之间的特征相似度,确定待测音频是否为伪造音频。通过上述方式,本申请能够提高对音频真伪检测的准确度,从而实现有效地鉴别音频的真假。

Patent Agency Ranking