-
公开(公告)号:CN114639387B
公开(公告)日:2024-09-10
申请号:CN202210221453.1
申请日:2022-03-07
Applicant: 哈尔滨理工大学
Abstract: 本发明公开了一种声纹欺诈检测方法,将能量谱经由Q‑DCT和Q‑IDCT平滑处理的重构群延迟‑常数Q变换(以下称为RGD‑CQT)语谱图特征进行检测语音欺诈攻击的方法,解决了欺诈语音特征区分性不强及欺诈语音检测系统错误率高的问题。在训练时,先对语音序列进行填充或截取操作,进而将语音序列的每一位与索引序号加一的值进行相乘,获得新的语音序列。将两个语音序列分别进行常数Q变换(CQT,constant Q transform),获得两个语谱图X和Y。分别提取两张语谱图的实部和虚部,对语谱图X进行Q‑DCT和Q‑IDCT,之后进行修改的群延迟的计算,最后进行归一化和取对数得到最终的语谱图。将其作为resnet18+cbam网络的输入;然后通过交叉熵损失和Adam优化器训练出一个最优的网络模型作为用于测试的模型。最终根据网络模型的分数,如果分数大于0则认为是真实语音,反之,则判断为欺诈语音。
-
公开(公告)号:CN115910073A
公开(公告)日:2023-04-04
申请号:CN202211186472.1
申请日:2022-09-27
Applicant: 哈尔滨理工大学
IPC: G10L17/18 , G10L17/02 , G10L17/04 , G10L17/22 , G06N3/044 , G06N3/045 , G06N3/048 , G06N3/08 , G06N3/084
Abstract: 本发明提出了一种基于双向注意力残差网络的语音欺诈检测方法,能够有效提升欺诈语音检测系统的识别性能,防止欺诈语音通过自动说话人验证系统(ASV)。在训练过程中,本发明首先对语音进行预处理,并提取常数Q变换(CQT)特征矩阵,将其作为残差网络(ResNet)的输入,利用ResNet提取浅层特征,然后将此特征输入双向注意力网络,以区分特征中不同维度的重要程度,从而得到区分性更强的特征表示。在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,对语音进行打分,根据打分结果对真实语音与欺诈语音进行分类。实验结果表明,本发明方法能够明显提升欺诈检测系统的性能,保护ASV系统免受不法用户的侵害。本发明可应用在语音处理和生物识别领域。
-
公开(公告)号:CN115910073B
公开(公告)日:2024-09-20
申请号:CN202211186472.1
申请日:2022-09-27
Applicant: 哈尔滨理工大学
IPC: G10L17/18 , G10L17/02 , G10L17/04 , G10L17/22 , G06N3/044 , G06N3/045 , G06N3/048 , G06N3/08 , G06N3/084
Abstract: 本发明提出了一种基于双向注意力残差网络的语音欺诈检测方法,能够有效提升欺诈语音检测系统的识别性能,防止欺诈语音通过自动说话人验证系统(ASV)。在训练过程中,本发明首先对语音进行预处理,并提取常数Q变换(CQT)特征矩阵,将其作为残差网络(ResNet)的输入,利用ResNet提取浅层特征,然后将此特征输入双向注意力网络,以区分特征中不同维度的重要程度,从而得到区分性更强的特征表示。在测试阶段,利用训练好的网络模型作为真实语音与欺诈语音的分类器,对语音进行打分,根据打分结果对真实语音与欺诈语音进行分类。实验结果表明,本发明方法能够明显提升欺诈检测系统的性能,保护ASV系统免受不法用户的侵害。本发明可应用在语音处理和生物识别领域。
-
公开(公告)号:CN114639387A
公开(公告)日:2022-06-17
申请号:CN202210221453.1
申请日:2022-03-07
Applicant: 哈尔滨理工大学
Abstract: 本发明公开了一种声纹欺诈检测方法,将能量谱经由Q‑DCT和Q‑IDCT平滑处理的重构群延迟‑常数Q变换(以下称为RGD‑CQT)语谱图特征进行检测语音欺诈攻击的方法,解决了欺诈语音特征区分性不强及欺诈语音检测系统错误率高的问题。在训练时,先对语音序列进行填充或截取操作,进而将语音序列的每一位与索引序号加一的值进行相乘,获得新的语音序列。将两个语音序列分别进行常数Q变换(CQT,constant Q transform),获得两个语谱图X和Y。分别提取两张语谱图的实部和虚部,对语谱图X进行Q‑DCT和Q‑IDCT,之后进行修改的群延迟的计算,最后进行归一化和取对数得到最终的语谱图。将其作为resnet18+cbam网络的输入;然后通过交叉熵损失和Adam优化器训练出一个最优的网络模型作为用于测试的模型。最终根据网络模型的分数,如果分数大于0则认为是真实语音,反之,则判断为欺诈语音。
-
-
-