一种基于深度学习的声音事件检测和定位方法

    公开(公告)号:CN113921034A

    公开(公告)日:2022-01-11

    申请号:CN202111259094.0

    申请日:2021-10-28

    Inventor: 兰朝风 张媛媛

    Abstract: 在重叠声音事件检测任务中,有时会导致提取的全局特征无法准确地检测和定位重叠部分的声音事件。鉴于此,基于多尺度空间通道挤压激励卷积网络和门控循环单元(Gated Recurrent Unit,GRU)利用GRU来获取与上下文相关的声音事件的短期和长期序列特征,本发明提出了一种基于多尺度空间通道挤压激励(Multi‑scale spatial channel squeeze excitation,MscSE)的声音事件检测和定位模型。该模型与基线模型、残差网络模型在公开数据集DCASE2020Task3中进行对比实验。最佳结果分别为检测ER为0.59、F1分数为50.7%,定位误差DE和DE_F1分数分别为15.8,70.3%,F1分数比其它模型高2%~5%,ER也低于其它模型。由此可见,相比单一尺度的模型,基于多尺度的挤压激励模型在声音事件检测和定位性能均有所提升。

    一种改进多分辨率残差U型网络的语音增强方法

    公开(公告)号:CN113707164A

    公开(公告)日:2021-11-26

    申请号:CN202111026177.5

    申请日:2021-09-02

    Abstract: 一种深度神经网络,特别涉及一种改进多分辨率残差U型网络语音增强方法,为使得传统的多分辨率残差U型网络更加适用于时频域上的语音增强任务,针对其在解码阶段恢复出低信噪比下的语音细节的能力弱、容易造成语音特征丢失的问题进行改进,同时改变了卷积核的大小以适应语音信号转化到时频域后通常得到的语音特征图的尺寸是宽度远大于高度的特点,属于语音增强领域。本发明包括:S1、将纯净和带噪语音通过短时傅里叶变换得到两种语音信号的幅度谱;S2、以带噪语音幅度谱作为网络的输入,纯净语音幅度谱作为训练目标;通过改进的多分辨率残差U型网络拟合网络输入与训练目标之间的非线性关系,进而得到基于改进的多分辨率残差U型网络的语音增强模型;S3、通过STFT获取带噪语音的幅度谱;将其通过改进的多分辨率残差U型网络模型,即可得到目标语音的幅度谱;S4、将幅度谱与带噪语音相位结合,进行波形重建,重建后即可得到增强语音。

Patent Agency Ranking