-
公开(公告)号:CN112201226A
公开(公告)日:2021-01-08
申请号:CN202011044151.9
申请日:2020-09-28
Applicant: 复旦大学
Abstract: 本发明属于声音识别技术领域,具体为一种发声方式判别方法及系统。本发明方法包括:获取各发声方式对应的音频数据;采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据,相邻样本数据有设定量的重叠;对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波,得到各样本数据的梅尔谱;对样本数据的梅尔谱进行标准化,以样本数据标准化后的梅尔谱为输入,以Adam为优化函数,以交叉熵为损失函数训练神经网络;采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明简化了发声方式的判别方法,降低了成本。本发明在相关源任务即歌声技巧分类的任务上做了预训练,加快了神经网络的训练速度。
-
公开(公告)号:CN112201226B
公开(公告)日:2022-09-16
申请号:CN202011044151.9
申请日:2020-09-28
Applicant: 复旦大学
Abstract: 本发明属于声音识别技术领域,具体为一种发声方式判别方法及系统。本发明方法包括:获取各发声方式对应的音频数据;采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据,相邻样本数据有设定量的重叠;对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波,得到各样本数据的梅尔谱;对样本数据的梅尔谱进行标准化,以样本数据标准化后的梅尔谱为输入,以Adam为优化函数,以交叉熵为损失函数训练神经网络;采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明简化了发声方式的判别方法,降低了成本。本发明在相关源任务即歌声技巧分类的任务上做了预训练,加快了神经网络的训练速度。
-