一种针对声纹识别的语音降噪方法及装置

    公开(公告)号:CN110070874A

    公开(公告)日:2019-07-30

    申请号:CN201810065088.3

    申请日:2018-01-23

    Abstract: 本发明涉及一种针对声纹识别的语音降噪方法及装置,该方法包括:对具有噪声的语音信号预处理后,进行特征提取,获取第一语音功率谱图;对第一语音功率谱图进行分解,获取第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪,获取降噪后的模态信号;将降噪后的模态信号与所述除所述第一模态之外的模态信号进行相加重构,获取第二语音功率谱图。通过该方案,主要是分离出噪声最多的模态进行降噪处理。如此一来,在实现语音信号降噪处理的同时,还可以尽量避免了有效语音信号的损失,即说话人语音信息的损失,提升声纹识别效果。

    一种鲁棒的伪造语音算法的溯源方法及装置

    公开(公告)号:CN116959425A

    公开(公告)日:2023-10-27

    申请号:CN202310746199.1

    申请日:2023-06-21

    Abstract: 本发明提供一种鲁棒的伪造语音算法的溯源方法及装置。该方法包括:利用训练数据集训练针对伪造语音算法的分类器;利用训练好的分类器处理所述训练数据集,得到所述分类器中的隐层针对所述各条伪造语音生成的隐层特征;利用训练好的分类器处理待检测的目标语音信号,得到所述分类器中的隐层生成的目标隐层特征和所述分类器的输出层输出的目标分类结果;分别计算所述目标隐层特征与若干隐层特征的距离,并确定其中的最短距离;当所述最短距离大于或等于预设阈值时,将所述目标分类结果作为所述目标语音信号的最终分类结果。如此,可以使用声码器生成伪造算法识别的训练集。引入最邻近节点算法,通过最邻近距离的分布区分训练集中不存在的分布外数据。

    一种合成语音检测方法、装置、电子设备以及存储介质

    公开(公告)号:CN116758943A

    公开(公告)日:2023-09-15

    申请号:CN202310820588.4

    申请日:2023-07-05

    Abstract: 本发明实施例公开一种合成语音检测方法、装置、电子设备及存储介质,涉及语音识别技术领域,能够提高检测合成语音的准确率。所述方法包括:获取第一集合中的第一语音信号;第一语音信号包括真实语音信号以及合成语音信号;基于第一语音信号以及预设分类模型,生成第一交叉熵损失函数;生成分类模型的当前模型参数下的近似第一集合外的数据的后验分布特征,基于后验分布特征,生成第二交叉熵损失函数;基于第一交叉熵损失函数以及第二交叉熵损失函数,生成总损失函数;利用总损失函数进行梯度回传,对分类模型进行参数更新,以获得更新后的分类模型;将待检测语音信号的声学特征输入所述更新后的分类模型,以获得待检测语音信号的检测结果。

    一种基于空洞卷积神经网络的端到端语种识别分类方法

    公开(公告)号:CN113539238A

    公开(公告)日:2021-10-22

    申请号:CN202010247070.2

    申请日:2020-03-31

    Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下,不降低单个神经元的感受野,弱化语音中的时间信息丢失问题。

    全连接多尺度的残差网络及其进行声纹识别的方法

    公开(公告)号:CN111833886A

    公开(公告)日:2020-10-27

    申请号:CN202010731632.0

    申请日:2020-07-27

    Abstract: 本发明提供了一种全连接多尺度的残差网络及其进行声纹识别的方法。该残差网络包括输入层,卷积层,N个依次连接的残差模块,以及全连接层。其中,在每个残差模块中,可以将输入的特征图分成多个分组,长度和宽度均为1的第一卷积核的输出,连接到后面经过多个第二卷积核构成的第二卷积核组,作为第二卷积核组的输入,最后将经过第二卷积核组的输出的特征图拼接在一起,由长度和宽度均为1的第三卷积核对其进行卷积处理,实现多尺度特征信息的融合,全连接层可以根据融合后的特征更好预测并输出用于指示说话人的分类信息。如此,可以在不增加网络深度的情况下,更好的提取多尺度的特征,从而实现更为准确的进行声纹识别。

Patent Agency Ranking