语音信号的处理方法、设备和存储介质

    公开(公告)号:CN113948102A

    公开(公告)日:2022-01-18

    申请号:CN202111250999.1

    申请日:2021-10-26

    发明人: 关海欣 梁家恩

    摘要: 本发明涉及一种语音信号的处理方法、装置、设备和存储介质,包括:对输入的含噪语音信号进行初步降噪处理,得到初始分离语音信号,分别得到含噪语音信号的功率值、初始分离语音信号的功率值和噪声信号的功率值,并经过时域平滑后,确定先验信噪比和后验信噪比,然后根据先验信噪比和后验信噪比,对降噪增益器对应的降噪函数进行更新得到更新降噪函数,实现了对降噪增益器的动态调整,寻找较优的增益值,并对更新降噪函数进行频域平滑,得到降噪滤波器对应的滤波函数后,根据滤波函数和含噪语音信号,得到频域下的目标分离语音信号后,进行傅里叶逆变换,得到时域下的分离语音信号,实现在较优的增益值下对含噪信号进行降噪,提高了降噪性能。

    训练数据的筛选方法、装置、设备和存储介质

    公开(公告)号:CN113496698A

    公开(公告)日:2021-10-12

    申请号:CN202110927090.9

    申请日:2021-08-12

    发明人: 关海欣 梁家恩

    摘要: 本发明涉及一种训练数据的筛选方法、装置、设备和存储介质,方法包括:将获取的待筛选数据输入预先构建的语音活动检测模型进行检测,得到待筛选数据的语音帧和噪音帧;根据获取的语音帧级平均能量和噪音帧级平均能量,确定待筛选数据的信噪比;若信噪比大于第一预设阈值,对待筛选数据进行混响抑制,得到抑制数据;根据语音帧级平均能量和获取的抑制数据的平均能量,确定混响分量的平均能量;根据混响分量的平均能量和语音帧级平均能量,确定混响占比;若混响占比小于第二预设阈值,保留待筛选数据,实现了自动筛选训练数据,提高了训练数据的筛选效率。

    一种单通道语音去混响方法及装置

    公开(公告)号:CN111599374A

    公开(公告)日:2020-08-28

    申请号:CN202010302255.9

    申请日:2020-04-16

    发明人: 李妍文 关海欣

    IPC分类号: G10L21/0208

    摘要: 本发明公开了一种单通道语音去混响方法及装置,方法包括:获取单个麦克风在室内采集的语音信号;对语音信号进行分帧加窗以及短时傅里叶变换处理,得到频域语音信号;将频域语音信号输入设置有预设初始参数的滤波器,采用基于二分坐标下降法的递归最小二乘法,将频域语音信号分成多个频带信号;根据所述多个频带信号计算得到更新后的滤波器系数,根据更新后的滤波器系数对多个频带信号进行滤波,得到去混响后的频域语音信号,可以降低计算量及计算复杂度,缩短处理语音信号时长。

    一种降噪方法及装置
    54.
    发明公开

    公开(公告)号:CN111105809A

    公开(公告)日:2020-05-05

    申请号:CN201911413911.6

    申请日:2019-12-31

    发明人: 李庆龙 关海欣

    摘要: 本发明公开了一种降噪方法及装置,包括:利用带噪的预设语音生成预设语音的第一倒谱特征;基于第一倒谱特征获得预测掩蔽值;根据预测掩蔽值对预设神经网络进行训练进而生成训练后的神经网络;获取当前带噪语音,将当前带噪语音输入到训练后的神经网络中得到当前带噪语音的当前掩蔽值;基于当前掩蔽值对当前带噪语音进行降噪处理,输出降噪后的当前语音。本发明不涉及利用高低频来进行降噪,没有能量守恒问题,降噪结果极佳,稳定且又效率高。解决了由于高低频能量差异大而产生的无法有效的分离出噪音的问题。获取倒谱特征来训练预设神经网络相比于基于深度学习技术的降噪方法所需要的其他特征所训练预设神经网络更加完美,降噪效果也更佳。

    一种人声起止时间检测方法及装置

    公开(公告)号:CN111028858A

    公开(公告)日:2020-04-17

    申请号:CN201911407236.6

    申请日:2019-12-31

    发明人: 李庆龙 关海欣

    IPC分类号: G10L25/24 G10L25/30 G10L25/87

    摘要: 本发明公开了一种人声起止时间检测方法及装置,包括:利用带噪的预设语音生成预设语音的第一倒谱特征,基于第一倒谱特征获得预测掩蔽值;根据预测掩蔽值对第一预设神经网络进行训练进而生成训练后的第一神经网络;利用训练后的第一神经网络得到带噪的预设VAD语音的预测mask值;根据预测mask值对第二预设神经网络进行训练进而生成训练后的第二神经网络;获取带噪的当前VAD语音,基于训练后的第一神经网络和训练后的第二神经网络获得带噪的当前VAD语音的起止时间。通过对带噪的VAD语音进行加降噪处理然后获得VAD标签进而确定上述VAD标签里人声的起止时间,排除了语音中的噪音成分,从根本上提高了整个过程的稳定性和获取结果的准确性。

    一种消除混响的方法和系统

    公开(公告)号:CN110718230A

    公开(公告)日:2020-01-21

    申请号:CN201910810308.5

    申请日:2019-08-29

    发明人: 关海欣

    摘要: 本发明提供了一种消除混响的方法,该消除混响的方法和系统通过在消除混响的过程中引入关于语音信号的语音时频概率检测,以计算得到该语音信号的语音时频概率,并根据该语音时频概率对混响消除处理中使用的滤波器进行适应性的更新调整操作,这样能够有效地降低滤波器发生更新错误的概率和降低该滤波器的计算频率和减少消除混响的计算量,从而便于对消除混响的计算量进行大幅度压缩和提高消除混响算法在不同类型处理器中的适用性。

    语音唤醒方法、装置、设备及介质

    公开(公告)号:CN118737162A

    公开(公告)日:2024-10-01

    申请号:CN202411052138.6

    申请日:2024-08-01

    摘要: 本发明涉及语音识别技术领域,具体涉及一种语音唤醒方法、装置、设备及介质,该方法包括:获取麦克风阵列当前接收的数据为目标数据;对所述目标数据进行预设的无向降噪处理,并将进行无向降噪处理后的所述目标数据输入至第一语音唤醒引擎,得到所述第一语音唤醒引擎输出的第一语音识别结果;利用预先构造的空间滤波器对所述目标数据进行滤波降噪处理,并将进行滤波降噪处理后的所述目标数据输入至第二语音唤醒引擎,得到所述第二语音唤醒引擎输出的第二语音识别结果;基于所述第一语音识别结果及所述第二语音识别结果,综合确定是否需进行所述目标数据对应的唤醒操作。本发明能够在保证效率的前提下大大提升语音唤醒准确率。

    模型训练及多通道语音增强方法、装置及设备

    公开(公告)号:CN118098254A

    公开(公告)日:2024-05-28

    申请号:CN202410369474.7

    申请日:2024-03-28

    摘要: 本申请公开了模型训练及多通道语音增强方法、装置及设备。由于多通道音频样本包括模拟多通道音频数据以及采集多通道音频数据,且样本噪声库中的多通道噪声样本包括模拟多通道噪声数据以及采集多通道噪声数据,使得获取到的多通道含噪音频样本不仅增强数据多样性,还考虑了真实世界中目标型号车辆的噪声环境条件,比如线路回声以及多通道漏音等,而在此基础上所训练的多通道音区分离模型更具鲁棒性且更加适应真实世界中目标型号车辆的噪声环境条件,从而更好的为目标型号车辆提供服务,有效抑制线路回声以及避免多通道间漏音问题。通过该多通道音区模型即可对采集的到多通道语音信号进行处理,无需提前进行线路回声去除,提高了语音增强的效率。

    一种车载语音分离方法、装置、电子设备和存储介质

    公开(公告)号:CN117789748A

    公开(公告)日:2024-03-29

    申请号:CN202311858899.6

    申请日:2023-12-30

    IPC分类号: G10L21/0272 G10L21/0208

    摘要: 本发明涉及一种车载语音分离方法、装置、电子设备和存储介质,该方法包括:获取麦克风接收信号以及参考信号;将麦克风接收信号以及参考信号转换至短时时频域;将转换至短时时频域的信号进行回声消除;判断回声消除后的信号属于哪个音区;分离回声消除后的信号得到每个音区的分离信号;对每个音区的分离信号进行后处理得到每个音区的输出信号;对每个音区的输出信号转换得到每个音区最终的时域输出。本发明将信号转换至时频域,通过回声消除去除信号中喇叭噪声;判断当前回声消除后的信号中包含哪些音区的信号;完成各音区信号的初步提取,对各音区中其他音区的声音残留通过后处理进一步抑制,各音区信号转回时域信号输出,完成多音区语音分离。

    训练数据的筛选方法、装置、设备和存储介质

    公开(公告)号:CN113496698B

    公开(公告)日:2024-01-23

    申请号:CN202110927090.9

    申请日:2021-08-12

    发明人: 关海欣 梁家恩

    摘要: 本发明涉及一种训练数据的筛选方法、装置、设备和存储介质,方法包括:将获取的待筛选数据输入预先构建的语音活动检测模型进行检测,得到待筛选数据的语音帧和噪音帧;根据获取的语音帧级平均能量和噪音帧级平均能量,确定待筛选数据的信噪比;若信噪比大于第一预设阈值,对待筛选数据进行混响抑制,得到抑制数据;根据语音帧级平均能量和获取的抑制数据的平均能量,确定混响分量的平均能量;根据混响分量的平均能量和语音帧级平均能量,确定混响占比;若混响占比小于第二预设阈值,保留待筛选数据,实现了自动筛选训练数据,提高了训练数据的筛选效率。