-
公开(公告)号:CN109410976A
公开(公告)日:2019-03-01
申请号:CN201811292475.7
申请日:2018-11-01
Applicant: 北京工业大学
IPC: G10L21/0208 , G10L21/0272 , G10L21/0232 , G10L25/30 , G10L25/24
Abstract: 双耳数字助听器中基于双耳声源定位和深度学习的语音增强方法,属于语音信号处理领域。首先使用两级的深度神经网络对目标语音给予精确的定位,j结合空间滤波去除与目标语音方向不同的噪声。使用搭建的延时控制双向长短时记忆深度神经网络与分类器相结合的深度学习模型,以提取的多分辨率听觉倒谱系数为特征输入,经过深度学习的非线性处理能力,将每个含噪语音的时频单元分类为语音时频单元或噪声的时频单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声。该算法不仅去除与目标语音不同方向上的噪声也去除与目标语音方向相同的噪声,最终获得满足耳障者的言可懂度和舒适度的增强语音。所有的深度学习模型都采用线下训练,满足实时性。
-
公开(公告)号:CN109410976B
公开(公告)日:2022-12-16
申请号:CN201811292475.7
申请日:2018-11-01
Applicant: 北京工业大学
IPC: G10L21/0208 , G10L21/0272 , G10L21/0232 , G10L25/30 , G10L25/24
Abstract: 双耳数字助听器中基于双耳声源定位和深度学习的语音增强方法,属于语音信号处理领域。首先使用两级的深度神经网络对目标语音给予精确的定位,j结合空间滤波去除与目标语音方向不同的噪声。使用搭建的延时控制双向长短时记忆深度神经网络与分类器相结合的深度学习模型,以提取的多分辨率听觉倒谱系数为特征输入,经过深度学习的非线性处理能力,将每个含噪语音的时频单元分类为语音时频单元或噪声的时频单元,最后利用语音波形合成算法去除与目标语音相同方向的噪声。该算法不仅去除与目标语音不同方向上的噪声也去除与目标语音方向相同的噪声,最终获得满足耳障者的言可懂度和舒适度的增强语音。所有的深度学习模型都采用线下训练,满足实时性。
-
公开(公告)号:CN110867181A
公开(公告)日:2020-03-06
申请号:CN201910935064.3
申请日:2019-09-29
Applicant: 北京工业大学
IPC: G10L15/20 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L21/0264 , G10L25/03 , G10L25/24 , G10L25/30
Abstract: 本发明提出了基于SCNN和TCNN联合估计的多目标语音增强方法。基于SCNN和TCNN提出了新的堆叠和时序卷积神经网络(STCNN),将对数功率谱(LPS)作为主要特征并输入到SCNN来提取高级抽象特征。其次,提出了一种更符合人耳听觉特性的幂函数压缩梅尔倒谱系数(PC-MFCC)。时间卷积神经网络(TCNN)将堆叠卷积神经网络提取的高层次抽象特征和PC-MFCC作为输入,进行序列建模并对干净的LPS,PC-MFCC和理想比例掩蔽(IRM)进行联合估计。最后,在增强阶段,由于不同的语音特征在合成语音过程中具有互补性。提出了一种基于IRM的后处理方法,通过语音存在信息自适应地调节估计的LPS和IRM的权重来合成增强语音。
-
公开(公告)号:CN107845389B
公开(公告)日:2020-07-17
申请号:CN201711397819.6
申请日:2017-12-21
Applicant: 北京工业大学
IPC: G10L21/0216 , G10L15/16 , G10L25/24
Abstract: 本发明提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR‑GFCC);其次,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出,对构建的7层神经网络进行训练;最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明充分利用了人耳的工作机理,提出了模拟人耳听觉生理模型的语音特征参数,不仅可以保留更多的语音信息,而且提取过程简单可行。
-
公开(公告)号:CN110867181B
公开(公告)日:2022-05-06
申请号:CN201910935064.3
申请日:2019-09-29
Applicant: 北京工业大学
IPC: G10L15/20 , G10L15/02 , G10L15/06 , G10L21/0216 , G10L21/0264 , G10L25/03 , G10L25/24 , G10L25/30
Abstract: 本发明提出了基于SCNN和TCNN联合估计的多目标语音增强方法。基于SCNN和TCNN提出了新的堆叠和时序卷积神经网络(STCNN),将对数功率谱(LPS)作为主要特征并输入到SCNN来提取高级抽象特征。其次,提出了一种更符合人耳听觉特性的幂函数压缩梅尔倒谱系数(PC‑MFCC)。时间卷积神经网络(TCNN)将堆叠卷积神经网络提取的高层次抽象特征和PC‑MFCC作为输入,进行序列建模并对干净的LPS,PC‑MFCC和理想比例掩蔽(IRM)进行联合估计。最后,在增强阶段,由于不同的语音特征在合成语音过程中具有互补性。提出了一种基于IRM的后处理方法,通过语音存在信息自适应地调节估计的LPS和IRM的权重来合成增强语音。
-
公开(公告)号:CN107845389A
公开(公告)日:2018-03-27
申请号:CN201711397819.6
申请日:2017-12-21
Applicant: 北京工业大学
IPC: G10L21/0216 , G10L15/16 , G10L25/24
Abstract: 本发明提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法,首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR-GFCC);其次,跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值;然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出,对构建的7层神经网络进行训练;最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明充分利用了人耳的工作机理,提出了模拟人耳听觉生理模型的语音特征参数,不仅可以保留更多的语音信息,而且提取过程简单可行。
-
-
-
-
-