-
公开(公告)号:CN119673138A
公开(公告)日:2025-03-21
申请号:CN202411890924.3
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10K11/178
Abstract: 本发明公开了一种基于相干约束的鲁棒性主动路噪控制方法。其步骤包括:(1)对主动路噪控制系统进行硬件配置;(2)实时计算误差信号和参考信号的多重相干系数,并用其作为控制滤波器更新的步长约束因子;(3)通过次级路径分解和参考信号白化,结合频域滤波误差最小均方算法进行控制滤波器的更新;(4)将控制滤波器转换至时域,实时输出控制信号驱动对消扬声器发声,经由次级路径传播后在误差传声器处与路噪信号相干叠加,在人耳附近产生静区。本发明能够使用在多通道复杂场景下的主动路噪控制系统中,基于相干约束的稳定保护方法,在稳态场景中获得了更快的收敛速度和更低的稳态误差,在含噪场景中提高了系统的鲁棒性。
-
公开(公告)号:CN118317225A
公开(公告)日:2024-07-09
申请号:CN202410316269.4
申请日:2024-03-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
Abstract: 本发明公开了一种结合指向性语音活动检测的定向拾音方法。包括以下步骤:生成多人说话场景下的含噪语音信号和标注数据;使用含噪语音信号和DVAD标注作为DVAD模块的输入和目标,训练模块;生成多人说话场景下的含噪语音信号、DVAD标注和目标话者语音,结合标注数据,通过GSC构造FBF和GSC的输出信号;使用FBF和GSC的输出,以及标注数据作为PF模块的输入,目标话者语音作为目标,训练模块;使用训练完成的DVAD模块预测含噪语音,结合DVAD预测和GSC获得FBF和GSC输出,使用训练完成的PF模块对两路输出以及DVAD预测作后处理。本发明能够在背景噪声和竞争话者存在的场景下,有效地抑制干扰信号,同时较完整地保留目标语音成分。
-
公开(公告)号:CN115273885A
公开(公告)日:2022-11-01
申请号:CN202210685223.0
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于频谱压缩和自注意力神经网络的全频带语音增强方法。其步骤为:使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;对模拟含噪混响语音数据和对应的纯净混响语音数据分别做短时傅里叶变换得到短时傅里叶谱;使用短时傅里叶谱训练SCM‑DPARN模型权重;对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;将待增强的含噪混响语音短时傅里叶谱输入完成训练的SCM‑DPARN模型,得到增强语音的短时傅里叶谱;最后对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。本发明对频域的全局信息进行建模,使模型具有更好的噪声抑制和语音质量保留能力。
-
公开(公告)号:CN118430565A
公开(公告)日:2024-08-02
申请号:CN202410316137.1
申请日:2024-03-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0216 , G10L25/30 , G06N3/0442 , G10K11/178
Abstract: 本发明公开了一种融合神经网络的卡尔曼滤波啸叫抑制路径突变检测方法。该方法包括以下步骤:(1)构建分块频域卡尔曼滤波啸叫抑制模块;(2)构建含有全连接层与门控循环单元的神经网络;(3)通过步骤(1)得到的误差信号,计算得到窄带能量比作为神经网络的输入特征;(4)在训练阶段,在真实标签监督下,对卡尔曼滤波状态误差矩阵进行修正;按照步骤(3)将特征输入神经网络,将网络输出与真实标签的二值交叉熵作为代价函数进行训练;(5)在推断阶段,向完成训练的神经网络输入对应特征,得到网络输出,并转换成二值变量,用于修正卡尔曼滤波状态误差矩阵。本发明可以实现卡尔曼滤波啸叫抑制路径突变检测,及时再次跟踪收敛。
-
公开(公告)号:CN115294996A
公开(公告)日:2022-11-04
申请号:CN202210684642.2
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0208 , G10L21/0272
Abstract: 本发明公开了一种用于非线性声学回声消除的半盲源分离方法。包括如下步骤:(1)获取待处理的含有非线性回声的麦克风信号;(2)对非线性映射输入信号进行基函数展开,并利用基于卷积传递函数近似的短时傅里叶变换得到时频域观测模型,得到用于非线性声学回声消除的半盲源分离模型;(3)根据所述半盲源分离模型,基于辅助函数独立向量分析方法或者独立低秩矩阵分析方法实现信号的半盲源分离,优化分离矩阵并分离出近端时频域信号;(4)通过短时傅里叶逆变换得到时域近端信号。本发明的方法具有有效的非线性回声消除性能。
-
公开(公告)号:CN119673187A
公开(公告)日:2025-03-21
申请号:CN202411891131.3
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/02 , G10L21/0232 , G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0442
Abstract: 本发明公开了一种基于网络架构搜索的超轻量级语音增强神经网络及方法。该神经网络包括编码器、增强器和解码器,编码器包括:频谱压缩模块,用于对含噪语音频谱在频率维度进行压缩;下采样卷积模块,用于对特征图做特征提取和频率维度的下采样;分组深度分离卷积模块,用于特征图做特征提取和特征增强;增强器包括:双路分组循环神经网络,用于对特征图做时频域建模;解码器包括:分组深度分离卷积模块,用于对特征图做特征提取和特征增强;上采样卷积模块,用于对特征图做特征重建和频率维度的上采样;频谱扩张模块,用于对特征图的频率维度进行扩张。本发明可以以较低的计算量开销实现高性能的语音增强。
-
公开(公告)号:CN116913308A
公开(公告)日:2023-10-20
申请号:CN202310707811.4
申请日:2023-06-15
Applicant: 南京大学
IPC: G10L21/0316 , G10L21/0216 , G10L21/0232 , G10L19/02 , G10L25/18 , G10L25/21 , G10L25/24
Abstract: 本发明公开了一种平衡降噪量和语音音质的单通道语音增强方法。该方法步骤如下:(1)将含噪信号变换到时频域,并利用PEFAC方法估计基频;(2)计算后验信噪比,根据基频估计在倒谱域对其平滑,进而利用固定先验的方法估计后验语音存在概率;(3)根据后验语音存在概率估计噪声功率谱密度;(4)更新后验信噪比,计算语音功率谱密度的最大似然估计;(5)根据基频估计在倒谱域平滑语音功率谱密度,并增强基频,得到先验信噪比的估计;(6)利用自适应先验的方法再次估计后验语音存在概率;(7)计算基于广义伽马先验的对数谱幅度增益,并结合后验语音存在概率导出基于语音存在不确定性的增益估计;(8)增强语谱并变换回时域,得到增强信号。
-
公开(公告)号:CN115273884A
公开(公告)日:2022-11-01
申请号:CN202210684643.7
申请日:2022-06-17
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/0232 , G10L25/30
Abstract: 本发明公开了一种基于频谱压缩和神经网络的多阶段全频带语音增强方法。其步骤为:设计全频带语音频谱压缩曲线,使用设计的参数初始化MHA‑DPCRN的频谱压缩模块;合成模拟含噪混响语音;对模拟含噪混响语音和对应的带混响纯净语音分别做短时傅里叶变换得到两者的短时傅里叶谱;使用短时傅里叶谱训练MHA‑DPCRN模型权重;(5)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;将含噪混响语音的短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱,并进行逆短时傅里叶变换得到增强语音的时域信号。本发明的方法能够在复杂噪声场景下对全频带语音进行较为彻底的噪声抑制,同时保留较好的语音音质。
-
公开(公告)号:CN119673188A
公开(公告)日:2025-03-21
申请号:CN202411891387.4
申请日:2024-12-20
Applicant: 南京大学 , 北京地平线信息技术有限公司
IPC: G10L21/02 , G10L25/30 , G10L25/03 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于自适应卷积的超轻量级语音增强神经网络系统及方法。其系统包括编码器:频谱压缩模块,用于对含噪语音频谱进行动态范围和频率维度的压缩;自适应卷积注意力模块,用于通过自适应卷积层和时间通道注意力对压缩后的特征图做频率维度的降采样和特征的提取分析,然后将特征图送入增强器;增强器:双路径分组循环神经网络,用于对语音的子带时间特征和帧内频率特征进行建模;解码器:自适应转置卷积注意力模块,用于对增强器输出的特征图做频率维度的升采样和特征重建;频谱扩张模块,用于对自适应转置卷积注意力模块输出的特征图的频率维度进行扩张。本发明可以以极低的计算复杂度实现较高性能的语音增强。
-
公开(公告)号:CN118230747A
公开(公告)日:2024-06-21
申请号:CN202410198267.X
申请日:2024-02-22
Applicant: 南京大学 , 北京地平线信息技术有限公司
Abstract: 本发明公开了一种适用于语音增强的轻量级神经网络系统及其方法。其系统包括编码器、增强器和解码器,编码器包括:频谱压缩模块,用于对含噪语音频谱在频率维度进行压缩;卷积模块,用于对频谱压缩模块压缩后的特征图做特征提取和频率维度的降采样;分组膨胀卷积模块,用于对卷积模块输出的特征图做进一步特征提取和频率维度的降采样,然后将特征图送入增强器;解码器包括:分组膨胀反卷积模块,用于对经增强器增强后的特征图做特征重建和频率维度的升采样;反卷积模块,用于对特征图做进一步的特征重建和频率维度的升采样;频谱扩张模块,用于对特征图的频率维度进行扩张。本发明可以以较低的参数量和计算量开销实现较高性能的语音增强。
-
-
-
-
-
-
-
-
-