基于自监督学习模型的真实声场环境下说话人识别方法

    公开(公告)号:CN119207431A

    公开(公告)日:2024-12-27

    申请号:CN202411195782.9

    申请日:2024-08-28

    Applicant: 中北大学

    Abstract: 本发明公开了一种基于自监督学习模型的真实声场环境下说话人识别方法,获取大规模无标签纯净音频数据,对其添加噪声及混响;对纯净音频数据进行聚类标签;将聚类伪标签为学习目标,将大规模无标签含噪声混响的音频数据库输入自监督学习模型进行训练;构建说话人识别网络模型,包括前端和后端,将训练完成的自监督学习模型迁徙到前端,后端依次包括若干一维卷积网络、时延神经网络、聚合及池化网络、全连接输出网络;对说话人识别网络模型进行训练;对全新的语音信号进行测试。本发明解决了在强噪声及混响环境下识别说话人精度较低的问题,适用多种应用场景,并对各种恶劣情况下的声纹识别具有重要推进意义。

Patent Agency Ranking