-
公开(公告)号:CN111653288B
公开(公告)日:2023-05-09
申请号:CN202010557116.0
申请日:2020-06-18
Applicant: 南京大学
IPC: G10L21/0216 , G10L21/0232
Abstract: 本发明公开了一种基于条件变分自编码器的目标人语音增强方法。该方法包括以下步骤:(1)对目标说话人清晰语音数据做短时傅里叶变换得到幅度谱;(2)使用目标说话人清晰语音幅度谱和身份编码向量来训练条件变分自编码器作为语音模型;(3)对含噪语音信号做短时傅里叶变换得到幅度谱和相位谱;(4)将含噪语音幅度谱和目标说话人身份编码向量输入语音模型,固定语音模型解码器权重,将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计;(5)使用幅度谱估计和含噪语音相位谱组合成复数谱,再通过逆短时傅里叶变换得到增强语音时域信号。本发明的方法能够在多种复杂噪声下对目标人语音进行增强,鲁棒性较高。
-
公开(公告)号:CN111653288A
公开(公告)日:2020-09-11
申请号:CN202010557116.0
申请日:2020-06-18
Applicant: 南京大学
IPC: G10L21/0216 , G10L21/0232
Abstract: 本发明公开了一种基于条件变分自编码器的目标人语音增强方法。该方法包括以下步骤:(1)对目标说话人清晰语音数据做短时傅里叶变换得到幅度谱;(2)使用目标说话人清晰语音幅度谱和身份编码向量来训练条件变分自编码器作为语音模型;(3)对含噪语音信号做短时傅里叶变换得到幅度谱和相位谱;(4)将含噪语音幅度谱和目标说话人身份编码向量输入语音模型,固定语音模型解码器权重,将语音模型和非负矩阵分解模型联合迭代优化得到语音和噪声的幅度谱估计;(5)使用幅度谱估计和含噪语音相位谱组合成复数谱,再通过逆短时傅里叶变换得到增强语音时域信号。本发明的方法能够在多种复杂噪声下对目标人语音进行增强,鲁棒性较高。
-
公开(公告)号:CN115273874A
公开(公告)日:2022-11-01
申请号:CN202210776973.9
申请日:2022-07-04
Applicant: 南京大学
Abstract: 本发明公开了一种基于循环神经网络的语音增强模型计算量压缩方法。该方法包括以下步骤:(1)使用清晰语音数据和噪声数据构造用于训练的含噪语音数据;(2)构建包含至少一个循环神经网络模块的深度神经网络作为语音增强模型;(3)在循环神经网络模块中添加隐状态跳跃结构,并向训练误差函数中添加隐状态跳跃频率的正则化项;(4)使用含噪语音训练数据集训练语音增强模型;(5)在增强阶段使用自适应跳跃或是指定跳跃频率的方式实现循环神经网络的隐状态跳跃更新,实现计算量压缩。本发明的方法能够使用在多种基于深度学习的语音增强算法中,具有可以在推断时动态调节计算量的能力。
-
-