-
公开(公告)号:CN117577133A
公开(公告)日:2024-02-20
申请号:CN202311485914.7
申请日:2023-11-09
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及声音事件检测与深度学习领域,特别涉及一种基于深度学习的哭声检测方法及系统。本发明方法包括以下步骤:首先,提取待检测语音信号的MFCC频谱,并输入预先建立并训练好的哭声检测模型中,输出每一帧语音信号为哭声和非哭声的概率。然后,对输出概率进行处理,得到每一帧语音信号为哭声和非哭声的概率。接下来,通过概率阈值对哭声概率进行二值化,得到连续的哭声片段。最后,将超过阈值时长的片段输出为哭声片段。所述哭声检测模型采用了一种引入帧级注意力机制模块的CRNN结构,并采用弱监督训练方法进行训练。通过本发明,实现了一种基于深度学习的哭声检测方法及相应的系统,为婴儿护理领域的技术发展提供了一种创新解决方案。