-
公开(公告)号:CN117877516A
公开(公告)日:2024-04-12
申请号:CN202410021647.6
申请日:2024-01-08
Applicant: 湖南大学
IPC: G10L25/30 , G06N3/0455 , G06N3/0464 , G06N3/0895 , G06N3/0442 , G10L25/18 , G10L25/24 , G10L25/21 , G10L15/06
Abstract: 本发明公开一种基于跨模型两阶段训练的声音事件检测方法,采用两阶段训练方式通过半监督学习方法训练两种不同神经网络模型,能够在时间帧层面对多种不同类型的声音事件进行检测。其特征在于,包括以下步骤:步骤S1,提取音频样本的对数梅尔谱特征;步骤S2,搭建改进音频频谱Transformer模型;步骤S3,训练改进音频频谱Transformer模型;步骤S4,使用改进音频频谱Transformer模型为无标签数据生成伪弱标签;步骤S5,搭建卷积循环神经网络;步骤S6,训练卷积循环神经网络;步骤S7,使用卷积循环神经网络获得声音事件检测结果。本发明极大地减少了对数据标签的需求,提升了模型的训练效果,同时分别优化和设计神经网络模型,提高了多音频声音事件检测的精度。