-
公开(公告)号:CN118918919A
公开(公告)日:2024-11-08
申请号:CN202410983886.X
申请日:2024-07-22
Applicant: 哈尔滨理工大学
Abstract: 基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备,属于语音信号处理技术领域。为了解决现有模型在音频分类时存在注意力机制在捕捉位置关系能力弱的问题,本发明利用基于频谱位置编码Transformer的音频分类模型对音频数据的梅尔频谱特征图进行处理,音频分类模型中的频谱切块嵌入层切块将频谱特征切为M行N列的频谱块,进而展平为一维序列得到特征序列,然后Transformer层的多头自注意力模块融入了频谱块相对位置偏置值,频谱块相对位置偏置值与两个频谱块的相对位置一一对应;根据Transformer层的输出预测得到分类结果。