一种平衡降噪量和语音音质的单通道语音增强方法

    公开(公告)号:CN116913308A

    公开(公告)日:2023-10-20

    申请号:CN202310707811.4

    申请日:2023-06-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种平衡降噪量和语音音质的单通道语音增强方法。该方法步骤如下:(1)将含噪信号变换到时频域,并利用PEFAC方法估计基频;(2)计算后验信噪比,根据基频估计在倒谱域对其平滑,进而利用固定先验的方法估计后验语音存在概率;(3)根据后验语音存在概率估计噪声功率谱密度;(4)更新后验信噪比,计算语音功率谱密度的最大似然估计;(5)根据基频估计在倒谱域平滑语音功率谱密度,并增强基频,得到先验信噪比的估计;(6)利用自适应先验的方法再次估计后验语音存在概率;(7)计算基于广义伽马先验的对数谱幅度增益,并结合后验语音存在概率导出基于语音存在不确定性的增益估计;(8)增强语谱并变换回时域,得到增强信号。

    一种针对位置靠近声源的语音信号分离方法

    公开(公告)号:CN113823316B

    公开(公告)日:2023-09-12

    申请号:CN202111125927.4

    申请日:2021-09-26

    Applicant: 南京大学

    Inventor: 廖乐乐 卢晶 陈锴

    Abstract: 本发明公开了一种针对位置靠近声源的语音信号分离方法。该方法的步骤包括:步骤1,获取待处理的混合语音时频域信号;步骤2,初始化各频带的分离矩阵;步骤3,对所有频带的分离矩阵进行联合优化;步骤4,对所述分离矩阵进行幅度规整;步骤5,估计出分离后的时频域语音信号;步骤6,由分离后的时频域语音信号恢复出时域语音信号。本发明的方法可以在声源位置靠近的不利条件下,帮助分离算法获得更好的语音信号分离效果。

    基于卷积循环网络和WPE算法的语音增强混合处理方法

    公开(公告)号:CN115424627A

    公开(公告)日:2022-12-02

    申请号:CN202110607848.0

    申请日:2021-06-01

    Applicant: 南京大学

    Inventor: 侯仲舒 卢晶

    Abstract: 本发明公开了一种基于卷积循环网络和WPE算法的语音增强混合处理方法。该方法的步骤为:(1)使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;(2)对模拟含噪混响语音和对应的清晰语音分别做短时傅里叶变换得到两者的短时傅里叶谱;(3)使用短时傅里叶谱训练DPCARN‑WPE模型权重;(4)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;(5)将含噪混响语音短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱;(6)对增强语音的短时傅里叶谱进行逆短时傅里叶变换。本发明能够在强混响、低信噪比、非稳态噪声等多种复杂噪声场景下对语音进行增强,鲁棒性较高。

    基于频谱压缩和神经网络的多阶段全频带语音增强方法

    公开(公告)号:CN115273884A

    公开(公告)日:2022-11-01

    申请号:CN202210684643.7

    申请日:2022-06-17

    Abstract: 本发明公开了一种基于频谱压缩和神经网络的多阶段全频带语音增强方法。其步骤为:设计全频带语音频谱压缩曲线,使用设计的参数初始化MHA‑DPCRN的频谱压缩模块;合成模拟含噪混响语音;对模拟含噪混响语音和对应的带混响纯净语音分别做短时傅里叶变换得到两者的短时傅里叶谱;使用短时傅里叶谱训练MHA‑DPCRN模型权重;(5)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;将含噪混响语音的短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱,并进行逆短时傅里叶变换得到增强语音的时域信号。本发明的方法能够在复杂噪声场景下对全频带语音进行较为彻底的噪声抑制,同时保留较好的语音音质。

    基于循环神经网络的语音增强模型计算量压缩方法

    公开(公告)号:CN115273874A

    公开(公告)日:2022-11-01

    申请号:CN202210776973.9

    申请日:2022-07-04

    Applicant: 南京大学

    Inventor: 乐笑怀 卢晶

    Abstract: 本发明公开了一种基于循环神经网络的语音增强模型计算量压缩方法。该方法包括以下步骤:(1)使用清晰语音数据和噪声数据构造用于训练的含噪语音数据;(2)构建包含至少一个循环神经网络模块的深度神经网络作为语音增强模型;(3)在循环神经网络模块中添加隐状态跳跃结构,并向训练误差函数中添加隐状态跳跃频率的正则化项;(4)使用含噪语音训练数据集训练语音增强模型;(5)在增强阶段使用自适应跳跃或是指定跳跃频率的方式实现循环神经网络的隐状态跳跃更新,实现计算量压缩。本发明的方法能够使用在多种基于深度学习的语音增强算法中,具有可以在推断时动态调节计算量的能力。

    一种基于双耳效应的声源方位角客观评价方法

    公开(公告)号:CN114997234A

    公开(公告)日:2022-09-02

    申请号:CN202210658836.5

    申请日:2022-06-10

    Applicant: 南京大学

    Abstract: 本发明公开了一种在室内环境中,基于双耳效应的声源方位角客观评价方法,所述方法包括:采集室内环境中双耳房间脉冲响应,卷积训练语音信号后降采样到16kHz;双耳信号分帧、加窗后对每帧语音提取用于声源方位角评价的客观参量,构建训练数据集和理论响应数据集作为输入和输出数据,通过回归决策树和装袋集成算法训练评价模型;选择测试语音卷积双耳房间脉冲响应构建测试数据集,可用于测试本发明对声源方位角的评价性能。本发明公开的声源方位角客观评价方法,可以准确预测室内声源方位角,环境适应性强,鲁棒性优良,计算效率高。

    基于半盲源分离的非线性声学回声消除方法

    公开(公告)号:CN112927706A

    公开(公告)日:2021-06-08

    申请号:CN202110080038.4

    申请日:2021-01-21

    Applicant: 南京大学

    Inventor: 程国良 卢晶

    Abstract: 本发明公开了一种基于半盲源分离的非线性声学回声消除方法。该方法包括以下步骤:(1)利用已知的远端输入信号获取含有非线性回声的麦克风信号;(2)对远端输入信号的非线性映射进行基函数展开,将未知的非线性展开系数合并到回声路径中;(3)将远端输入信号的基函数形式看作已知的参考信号,并与麦克风信号合并为向量形式;(4)利用短时傅里叶变换得到时频域信号;(5)采用带约束的缩放自然梯度独立向量分析实现在线半盲源分离算法,估计分离矩阵并分离出近端时频域信号;(6)通过短时傅里叶逆变换得到时域的近端信号。本发明的方法能在非线性模型与实际模型存在偏差的实际应用中获得更好的非线性回声消除性能。

    一种通过多声源活动检测来改进双通道盲信号分离的方法

    公开(公告)号:CN108597531B

    公开(公告)日:2021-05-28

    申请号:CN201810265485.5

    申请日:2018-03-28

    Applicant: 南京大学

    Inventor: 王泽林 卢晶

    Abstract: 本发明公开了一种通过多声源活动检测来改进双通道盲信号分离的方法。该方法基于双通道TRINICON算法进行盲信号分离,将初步的处理前后的功率进行对比,若一个输出通道的信号功率明显低于另一个输出通道,则可判断这段信号中要抑制的目标声源处于活动状态,依此可对各段数据中各个目标声源是否处于活动状态进行判断。利用多声源活动判断的结果对TRINICON算法进行修正,使用目标声源活动的数据来更新滤波器系数,从而达到去除干扰、提高语音分离的性能的目的。本发明的方法能有效地改善在间断交错混合及稀疏混合的场景中TRINICON方法的分离性能。

Patent Agency Ranking