一种基于声门流特征和声纹特征的伪造语音检测方法及系统

    公开(公告)号:CN119580770A

    公开(公告)日:2025-03-07

    申请号:CN202411692866.3

    申请日:2024-11-25

    Abstract: 本申请提供了一种基于声门流特征和声纹特征的伪造语音检测方法及系统,该方法包括:采集训练模型使用的语音信号;使用预训练ECAPA‑TDNN系统提取声纹特征;通过逆滤波方法提取声门流特征;将声门流特征输入预训练的wav2vec提取声门流鲁棒性特征;将声门流鲁棒性特征送入二维卷积网络进行时频域特征关系建模,并与声纹特征拼接,将拼接特征拼接并送入分类层进行语音真伪分类判决;使用训练语音训练基于声门流特征和声纹特征的伪造语音检测系统;采集待测试的目标语音并同样地进行声门流和声纹特征提取,通过二维时频网络并输入分类层,获得最终的伪造语音检测结果。本申请的优势在于:提升了伪造语音检测系统的性能和鲁棒性。

    一种语音波达方向估计方法及系统

    公开(公告)号:CN115421099B

    公开(公告)日:2025-01-17

    申请号:CN202211044030.3

    申请日:2022-08-29

    Abstract: 本发明公开了一种语音波达方向估计方法,包括:获取远场环境下混合语音音频;对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱信号;将频谱信号输入声源位置估计神经网络模型,由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计;对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作,得到目标说话人的句子级别的笛卡尔坐标估计;对目标说话人的句子级别的笛卡尔坐标估计进行反正切运算,得到目标说话人的波达方向估计。本发明提供一种语音波达方向估计方法及系统,能够克服多说话人远场环境下,非语音帧与干扰说话人帧对波达方向估计模型的效果的影响,实现低延时的波达方向估计。

    一种端到端多尺度风格迁移的歌声转换方法及系统

    公开(公告)号:CN118969013A

    公开(公告)日:2024-11-15

    申请号:CN202410944150.1

    申请日:2024-07-15

    Abstract: 本发明属于歌声转换领域,涉及一种端到端多尺度风格迁移的歌声转换方法及系统。该方法包括:采集待转换的目标歌声并进行预处理,去除伴奏音;将预处理后的目标歌声和拟采用风格的参考歌声输入预先建立和训练好的歌声转换模型,输出具有参考歌声风格的合成歌声,实现风格迁移;所述歌声转换模型用于从预处理后的目标歌声中提取内容向量和MIDI,从参考歌声中提取全局和局部的风格向量、音高和CQT谱,经端到端处理得到歌声波形。本发明对歌唱进行多尺度风格建模,解决了经典歌声转换中风格相似性差的问题,并且进一步提升了音质,提升了歌声的自然度。

    一种多语言连续语音流语音内容识别方法及系统

    公开(公告)号:CN112489622B

    公开(公告)日:2024-03-19

    申请号:CN201910782981.2

    申请日:2019-08-23

    Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

    利用音频判别模型进行音频判别的方法和装置

    公开(公告)号:CN113724731B

    公开(公告)日:2024-01-05

    申请号:CN202111007671.7

    申请日:2021-08-30

    Abstract: 本说明书实施例提供了一种利用音频判别模型进行音频判别的方法和装置。该方法用于判别音频中的咳嗽音频属于新型冠状病毒肺炎的概率,该方法的一具体实施方式包括:首先,从采集的音频中获取多帧待判别咳嗽音频,并从各帧待判别咳嗽音频中提取特征向量。而后,利用至少一个第一时延神经网络,对多帧待判别咳嗽音频的特征向量进行信息提取,得到音频信息。之后,利用至少一个残差时延神经网络,从多个维度提取音频信息的多维度信息,并利用至少一个第二时延神经网络,从多维度信息获得固定长度的音频特征。最后,将固定长度的音频特征输入全连接层得到待判别咳嗽音频属于新冠肺炎的概率。

    一种语音检测模型训练和语音检测方法

    公开(公告)号:CN116597818A

    公开(公告)日:2023-08-15

    申请号:CN202310440282.6

    申请日:2023-04-21

    Abstract: 本申请提供一种语音检测模型的训练方法,包括:采集训练语音检测模型使用的语音,分别提取语音中每一条语音的声纹特征并进行差分得到第一特征信号。将第一特征信号作为神经网络的输入,使用损失函数迭代训练神经网络的参数,直至满足结束条件,得到目标语音检测模型。神经网络用于学习第一特征信号中携带的时序信息。由此,通过建立可以深度学习语音所携带时序信息的目标语音检测模型,可以提高对语音信号的真伪进行检测的准确性和鲁棒性。

    一种语音降噪模型的训练方法以及语音增强方法

    公开(公告)号:CN116137153A

    公开(公告)日:2023-05-19

    申请号:CN202111353720.2

    申请日:2021-11-16

    Abstract: 本申请提供了一种语音降噪模型的训练方法和语音增强方法。语音降噪模型包括:第一增强模块和第二增强模块,第一增强模块用于对输入的频谱进行降噪处理,输出频谱;第二增强模块用于对输入的频谱进行降噪处理,输出复数掩蔽。第一增强模块和第二增强模块的处理顺序根据声道的信噪比确定。其中,在声道的信噪比小于预设值时,先利用第一增强模块进行处理以恢复语音谐波,后利用第二增强模块进行处理以增强降噪性能。

    一种基于神经网络中间层特征滤波的音频信号分类方法

    公开(公告)号:CN111354373B

    公开(公告)日:2023-05-12

    申请号:CN201811572720.X

    申请日:2018-12-21

    Abstract: 本发明公开了一种基于神经网络中间层特征滤波的音频信号分类方法,所述方法包括:对待分类的数字声音信号进行预处理并提取频谱;计算频谱的梅尔滤波器组系数作为音频特征;将音频特征输入到训练好的插入滤波层的分类网络;输出所述对待分类的数字声音信号的每一帧的预测概率,最大值对应的类别为帧级的音频信号分类标签。本发明的方法无需使用复杂的网络结构,仅利用离散余弦变换实现了音频时域信息的滤波,基本不影响神经网络的运算速度,同时对数据量要求小。

    一种基于统计语言模型得分规整的语音识别方法及系统

    公开(公告)号:CN109427330B

    公开(公告)日:2023-04-07

    申请号:CN201710790753.0

    申请日:2017-09-05

    Abstract: 本发明一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N元文法语言模型;步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性,能够有效的提升语音识别的正确率。

    一种基于神经网络的端到端信道质量评估方法及系统

    公开(公告)号:CN115565523A

    公开(公告)日:2023-01-03

    申请号:CN202211169334.2

    申请日:2022-09-23

    Abstract: 本发明公开了一种基于神经网络的端到端信道质量评估方法,包括:采集远场带噪语音;根据远场带噪语音所处的声学环境将语音质量评估系统调整为第一质量评估方式;语音质量评估系统支持包含第一质量评估方式在内的多种质量评估方式;将远场带噪语音输入到调整后的语音质量评估系统,采用映射函数推理远场带噪语音在第一质量评估方式下的语句级质量分数,作为远场带噪语音在第一质量评估方式下的质量评估结果;语音质量评估系统由神经网络技术训练得到。本发明采用非侵入式的方法预测出用于语音质量评估的分数,可以动态的建模不同的质量评估方式,同时无需收集对应的参考语音,提高评估效率,可以在多种评估环境下快速部署语音质量评估系统。

Patent Agency Ranking