-
公开(公告)号:CN110085249B
公开(公告)日:2021-03-16
申请号:CN201910385797.4
申请日:2019-05-09
Applicant: 南京工程学院
IPC: G10L21/0232 , G10L21/0264 , G10L25/18 , G10L25/24 , G10L25/30
Abstract: 本发明公开了一种基于注意力门控的循环神经网络的单通道语音增强方法,包括对带噪的单通道语音进行分帧加窗,提取38维信号特征;构建用于单通道语音增强的深度循环神经网络;利用纯净语音库和噪声库构建训练数据集;训练构建的深度循环神经网络;将提取的带噪语音特征输入训练好的深度循环神经网络,输出带噪语音的频带增益估计值,并进行平滑、内插得到内插增益;将内插增益作用于带噪的单通道语音,得到增强后的语音频谱。本发明能够有效抑制包括非平稳噪声在内的噪声,同时保持足够低的计算复杂度,从而能够用于实时的单通道语音增强,方法巧妙,构思新颖,具有良好的应用前景。
-
公开(公告)号:CN110111803B
公开(公告)日:2021-02-19
申请号:CN201910385769.2
申请日:2019-05-09
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;构建基于深层神经网络的语音增强模型;构建自注意多核最大均值差异的迁移学习语音增强模型;训练自注意多核最大均值差异的迁移学习语音增强模型;输入目标域带噪语音的帧级特征,重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,具有良好的应用前景。
-
公开(公告)号:CN114067819B
公开(公告)日:2024-06-21
申请号:CN202111385676.3
申请日:2021-11-22
Applicant: 南京工程学院
IPC: G10L21/02 , G06N3/0464 , G06F18/214 , G06F18/22 , G06N3/0442 , G06F18/25 , G06N3/096
Abstract: 本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。
-
公开(公告)号:CN111968666B
公开(公告)日:2022-02-01
申请号:CN202010847510.8
申请日:2020-08-20
Applicant: 南京工程学院
IPC: G10L21/0216 , G10L21/0232 , G10L25/03 , G10L25/30 , G06N3/04 , G06N3/08 , H04R25/00
Abstract: 本发明公开了一种基于深度域自适应网络的助听器语音增强方法,包括:分别从带噪语音和干净语音中提取帧级对数功率谱特征;构建基于编码器‑解码器结构的深度学习模型作为基线语音增强模型;在基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器;利用域对抗性损失训练迁移学习语音增强模型;在增强阶段,根据训练后的深度域自适应迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形。本发明通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。
-
公开(公告)号:CN116453547A
公开(公告)日:2023-07-18
申请号:CN202210620231.7
申请日:2022-06-02
Applicant: 南京工程学院
IPC: G10L25/60 , G10L25/30 , H04R25/00 , G06F18/2415 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明公开基于听损分类的助听器语音质量自评价方法,包括构建由帧级特征提取网络、听损分类子网络、质量预测子网络构成的语音质量自评估网络;基于助听器处理后信号计算浅层特征,利用帧级特征提取网络学习失真信号的深层表示,从而获得帧级特征;形状重置后的帧级特征分别通过听损分类子网络和质量预测子网络得到失真语音补偿前听力损失程度的分类情况和质量评分的预测值。本发明依照多任务训练策略,将预测失真信号的质量评分作为主任务,预测失真信号的质量分类作为辅任务,通过训练时损失函数的权重因子调节主、辅任务在网络中的重要程度,提高了无参考助听器语音质量评价方法的准确性,简化了处理过程。
-
公开(公告)号:CN110111803A
公开(公告)日:2019-08-09
申请号:CN201910385769.2
申请日:2019-05-09
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,包括从原始语音中提取GFCC特征,并作为深度神经网络的输入特征;利用带噪语音与干净语音信息计算傅里叶变换域的理想浮值掩蔽,并作为深度神经网络的训练目标;构建基于深层神经网络的语音增强模型;构建自注意多核最大均值差异的迁移学习语音增强模型;训练自注意多核最大均值差异的迁移学习语音增强模型;输入目标域带噪语音的帧级特征,重建增强语音波形。本发明在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习,提高语音增强性能,具有良好的应用前景。
-
公开(公告)号:CN110085249A
公开(公告)日:2019-08-02
申请号:CN201910385797.4
申请日:2019-05-09
Applicant: 南京工程学院
IPC: G10L21/0232 , G10L21/0264 , G10L25/18 , G10L25/24 , G10L25/30
Abstract: 本发明公开了一种基于注意力门控的循环神经网络的单通道语音增强方法,包括对带噪的单通道语音进行分帧加窗,提取38维信号特征;构建用于单通道语音增强的深度循环神经网络;利用纯净语音库和噪声库构建训练数据集;训练构建的深度循环神经网络;将提取的带噪语音特征输入训练好的深度循环神经网络,输出带噪语音的频带增益估计值,并进行平滑、内插得到内插增益;将内插增益作用于带噪的单通道语音,得到增强后的语音频谱。本发明能够有效抑制包括非平稳噪声在内的噪声,同时保持足够低的计算复杂度,从而能够用于实时的单通道语音增强,方法巧妙,构思新颖,具有良好的应用前景。
-
公开(公告)号:CN116434766A
公开(公告)日:2023-07-14
申请号:CN202310414553.0
申请日:2023-04-17
Applicant: 南京工程学院
IPC: G10L21/0264 , G10L21/0224 , G10L21/0232 , G10L21/0332 , G10L25/30 , G10L25/12 , G10L25/18 , G10L25/21 , H04R25/00 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/048 , G06N3/094 , G06N3/084
Abstract: 本发明公开了一种结合听损补偿和语音降噪的语音增强方法,包括:将听力损失图沿频率轴进行延展嵌入得到听力损失谱,并将听力损失谱与带噪训练语音的复频谱图特征叠合;构建基于频率‑时间卷积递归的度量生成对抗网络模型,模型主体结构包含补偿生成器和度量鉴别器;交替训练补偿生成器与度量鉴别器,优化度量生成对抗网络模型;将待测语音的复频谱图特征与听力损失谱叠合后输入到训练好的补偿生成器,根据补偿生成器的输出重建待测语音的增强语音波形。本发明通过度量生成对抗网络同时完成降噪与针对特定听力图的听损补偿,能够稳定有效地提升带噪环境下听损补偿的效果,方法巧妙新颖,具有良好的应用前景。
-
公开(公告)号:CN114067819A
公开(公告)日:2022-02-18
申请号:CN202111385676.3
申请日:2021-11-22
Applicant: 南京工程学院
Abstract: 本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。
-
公开(公告)号:CN111968666A
公开(公告)日:2020-11-20
申请号:CN202010847510.8
申请日:2020-08-20
Applicant: 南京工程学院
IPC: G10L21/0216 , G10L21/0232 , G10L25/03 , G10L25/30 , G06N3/04 , G06N3/08 , H04R25/00
Abstract: 本发明公开了一种基于深度域自适应网络的助听器语音增强方法,包括:分别从带噪语音和干净语音中提取帧级对数功率谱特征;构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;在基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器;利用域对抗性损失训练迁移学习语音增强模型;在增强阶段,根据训练后的深度域自适应迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形。本发明通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。
-
-
-
-
-
-
-
-
-