一种基于掩膜映射和混合空洞卷积网络的语音增强方法

发明授权

CN113936681B 一种基于掩膜映射和混合空洞卷积网络的语音增强方法有权

请登陆查看更多内容

专利标题： 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
申请号： CN202111192259.7

申请日： 2021-10-13
公开(公告)号： CN113936681B

公开(公告)日： 2024-04-09
发明人: 周琳 , 陈惜金 , 吴超燕 , 钟秋月
申请人： 东南大学
申请人地址： 江苏省南京市江宁区东南大学路2号
专利权人： 东南大学
当前专利权人： 东南大学
当前专利权人地址： 江苏省南京市江宁区东南大学路2号
代理机构： 南京瑞弘专利商标事务所
代理商 孙建朋
主分类号： G10L21/0208
IPC分类号： G10L21/0208 ; G10L21/0264 ; G10L25/30 ; G06F17/16 ; G06F18/214 ; G06N3/0464 ; G06N3/084

摘要：

本发明公开了一种基于掩膜映射和混合空洞卷积网络的语音增强方法。本方法在训练阶段，预处理后的含噪语音信号进行短时傅里叶变换，得到对数功率谱，同时计算理想比值掩膜。将若干帧的对数功率谱组成二维对数功率图谱，作为混合空洞卷积网络的输入特征，将对应帧的理想比值掩膜组成二维理想比值掩膜矩阵，作为训练目标，对混合空洞卷积网络进行训练，得到混合空洞卷积网络回归器；测试过程中，利用训练好的混合空洞卷积网络回归器，将含噪测试语音的二维对数功率图谱映射为二维估计比值掩膜矩阵，结合含噪语音的对数功率谱和相位信息，进行逆变换得到重构的语音信号，实现语音增强。本发明提高了语音的感知质量，且算法兼具鲁棒性与泛化性。

公开/授权文献

CN113936681A 一种基于掩膜映射和混合空洞卷积网络的语音增强方法公开/授权日：2022-01-14

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/02	.语音增强，例如降低噪声或消除回声（在直线传送系统中减轻回声效应入H04B3/20；免提电话中的回声抑制入H04M9/08）
G10L21/0208	..噪声过滤