-
公开(公告)号:CN111723874B
公开(公告)日:2023-05-26
申请号:CN202010624687.1
申请日:2020-07-02
Applicant: 华南理工大学
IPC: G06F18/214 , G06F18/213 , G06F18/2431 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于宽度和深度神经网络的声场景分类方法,包括下列步骤:首先从声场景音频样本提取对数梅尔谱特征,并划分为训练集和测试集;再设计宽度神经网络和深度联合概率网络;将训练集各音频样本的对数梅尔谱特征作为输入,对上述两个网络进行预训练;根据预训练结果构建联合判别分类树模型,训练并调优该联合判别分类树模型;最后将测试集各音频样本的对数梅尔谱特征输入联合判别分类树模型,辨识各音频样本所对应的声场景。本发明构建的联合判别分类树模型可以补足单一网络泛化能力差、稳定性弱的缺点,并利用宽度神经网络和深度神经网络的优势互补特性提升声场景分类效果。
-
公开(公告)号:CN111723874A
公开(公告)日:2020-09-29
申请号:CN202010624687.1
申请日:2020-07-02
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于宽度和深度神经网络的声场景分类方法,包括下列步骤:首先从声场景音频样本提取对数梅尔谱特征,并划分为训练集和测试集;再设计宽度神经网络和深度联合概率网络;将训练集各音频样本的对数梅尔谱特征作为输入,对上述两个网络进行预训练;根据预训练结果构建联合判别分类树模型,训练并调优该联合判别分类树模型;最后将测试集各音频样本的对数梅尔谱特征输入联合判别分类树模型,辨识各音频样本所对应的声场景。本发明构建的联合判别分类树模型可以补足单一网络泛化能力差、稳定性弱的缺点,并利用宽度神经网络和深度神经网络的优势互补特性提升声场景分类效果。
-