-
公开(公告)号:CN119339743A
公开(公告)日:2025-01-21
申请号:CN202411498006.6
申请日:2024-10-25
Applicant: 杭州电子科技大学
Abstract: 本发明提供了一种基于预训练模型的多模态语音情感识别方法,包括如下步骤:步骤1、获取数据集,所述数据集中包括若干数据对,所述数据对包括相对应的文本的数据和音频数据,每个所述数据对设置有情感标签;步骤2、从文本数据中获取文本语义特征,从同一数据对中的音频数据获取音频声学特征和语音情感特征;步骤3、将文本语义特征、音频声学特征和语音情感特征进行特征融合,获得融合特征;步骤4、将融合特征输入至线性分类器当中,通过softmax层后将其输出作为每一种情感的得分,取得分最大值对应的情感标签所对应的情感作为识别结果。该方法并基于注意力机制提出了一种以语音情感为导向的融合策略,显著提高了语音情感的预测准确率。