一种基于谱图去噪和对抗学习的鲁棒说话人识别方法

    公开(公告)号:CN116469394A

    公开(公告)日:2023-07-21

    申请号:CN202310425824.2

    申请日:2023-04-20

    Applicant: 南昌大学

    Inventor: 张烨 常浩

    Abstract: 本发明提供了一种基于谱图去噪和对抗学习的鲁棒说话人识别方法。首先采集干净语音的谱图数据集以及干净语音加噪后的含噪谱图数据集;利用均方误差损失函数训练多级编解码结构的U型网络(U‑Net)对含噪语音信号的梅尔谱图去除噪声干扰,得到增强梅尔谱图;利用最小二乘损失函数训练基于时延神经网络的条件生成对抗网络(TDNN‑CGAN),采用时延神经网络(TDNN)作为TDNN‑CGAN中的生成器以提取增强梅尔谱图的深度特征,采用多层感知机(MLP)作为TDNN‑CGAN中的判别器;最后利用交叉熵损失训练说话人分类器来识别说话人的身份,实现噪声环境下的说话人识别。本发明从含噪语音提取的深度特征接近于从干净语音提取的深度特征,提升了说话人识别系统在噪声环境下的性能。

Patent Agency Ranking