一种基于声纹特征的多人语音分离方法、设备及介质

    公开(公告)号:CN113990344A

    公开(公告)日:2022-01-28

    申请号:CN202111004878.9

    申请日:2021-08-30

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于声纹特征的多人语音分离方法、设备及介质,该方法包括:S1:获取目标说话人的声纹特征Xref以及对混合音频采用短时傅里叶变换提取其频谱特征Xmix;S2:通过拼接混合音频的频谱特征Xmix与目标说话人的声纹特征Xref得到参考声纹特征的频谱特征X′mix,并将频谱特征X′mix输入到用于捕获低级别音频特征的扩张卷积层,得到语音分离模型的输入特征Xinput;S3:通过基于语音分离模型获取频谱掩膜,并将其与混合音频的频谱特征Xmix相乘,得到预测出的目标说话人的纯净音频的频谱;通过参考混合音频的相位谱并结合短时傅里叶逆变换,得到预测出的目标说话人在时域上的纯净音频。与现有技术相比,本发明具有语音分离精度高的优点。

Patent Agency Ranking