一种基于双层融合深度网络的语音情感识别方法

    公开(公告)号:CN114743569B

    公开(公告)日:2024-11-26

    申请号:CN202210419568.1

    申请日:2022-04-21

    Inventor: 李飞 李斌建 李汀

    Abstract: 本发明涉及一种基于双层融合深度网络的语音情感识别方法,为了获得丰富的交叉模态的信息本发明利用了语音和文本两个模态的特征向量进行寻优融合,捕捉复杂的关联在音频和文本之间进行情感识别。首先将语音和文本信息通过预处理,得到音频和文本特征向量,通过FBP特征融合模块,将音频特征,文本特征做多模态交叉融合,将融合后的特征向量分别经过LSTM,GRU,DNN三个子模型组成的level‑1初级特征编码网络,然后level‑1三个子网络的输出做二次融合,编码高级特征,融合的方法是hadmard积,最后将融合后的特征输入到level‑2的BiLSTM编码网络,最后接分类输出层,预测情感类别。本次提出的融合算法在公开数据集IEMOCAP上实验结果显示达到了80.38%WA和78.62%UA,实现了目前语音情感识别领域较好的结果。

    一种基于双层融合深度网络的语音情感识别方法

    公开(公告)号:CN114743569A

    公开(公告)日:2022-07-12

    申请号:CN202210419568.1

    申请日:2022-04-21

    Inventor: 李飞 李斌建 李汀

    Abstract: 本发明涉及一种基于双层融合深度网络的语音情感识别方法,为了获得丰富的交叉模态的信息本发明利用了语音和文本两个模态的特征向量进行寻优融合,捕捉复杂的关联在音频和文本之间进行情感识别。首先将语音和文本信息通过预处理,得到音频和文本特征向量,通过FBP特征融合模块,将音频特征,文本特征做多模态交叉融合,将融合后的特征向量分别经过LSTM,GRU,DNN三个子模型组成的level‑1初级特征编码网络,然后level‑1三个子网络的输出做二次融合,编码高级特征,融合的方法是hadmard积,最后将融合后的特征输入到level‑2的BiLSTM编码网络,最后接分类输出层,预测情感类别。本次提出的融合算法在公开数据集IEMOCAP上实验结果显示达到了80.38%WA和78.62%UA,实现了目前语音情感识别领域较好的结果。

Patent Agency Ranking