-
公开(公告)号:CN115273885A
公开(公告)日:2022-11-01
申请号:CN202210685223.0
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于频谱压缩和自注意力神经网络的全频带语音增强方法。其步骤为:使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;对模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到短时傅里叶谱;使用短时傅里叶谱训练SCM‑DPARN模型权重;对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;将待增强的含噪混响语音短时傅里叶谱输入完成训练的SCM‑DPARN模型,得到增强语音的短时傅里叶谱;最后对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。本发明对频域的全局信息进行建模,使模型具有更好的噪声抑制和语音质量保留能力。
-
公开(公告)号:CN115424627A
公开(公告)日:2022-12-02
申请号:CN202110607848.0
申请日:2021-06-01
Applicant: 南京大学
IPC: G10L21/02 , G10L21/0216 , G10L25/27 , G10L25/30
Abstract: 本发明公开了一种基于卷积循环网络和WPE算法的语音增强混合处理方法。该方法的步骤为:(1)使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;(2)对模拟含噪混响语音和对应的清晰语音分别做短时傅里叶变换得到两者的短时傅里叶谱;(3)使用短时傅里叶谱训练DPCARN‑WPE模型权重;(4)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;(5)将含噪混响语音短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱;(6)对增强语音的短时傅里叶谱进行逆短时傅里叶变换。本发明能够在强混响、低信噪比、非稳态噪声等多种复杂噪声场景下对语音进行增强,鲁棒性较高。
-
公开(公告)号:CN115273884A
公开(公告)日:2022-11-01
申请号:CN202210684643.7
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于频谱压缩和神经网络的多阶段全频带语音增强方法。其步骤为:设计全频带语音频谱压缩曲线,使用设计的参数初始化MHA‑DPCRN的频谱压缩模块;合成模拟含噪混响语音;对模拟含噪混响语音和对应的带混响纯净语音分别做短时傅里叶变换得到两者的短时傅里叶谱;使用短时傅里叶谱训练MHA‑DPCRN模型权重;(5)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;将含噪混响语音的短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱,并进行逆短时傅里叶变换得到增强语音的时域信号。本发明的方法能够在复杂噪声场景下对全频带语音进行较为彻底的噪声抑制,同时保留较好的语音音质。
-
-