一种基于状态空间模型跨模态交互的多模态情感识别方法

    公开(公告)号:CN119128578A

    公开(公告)日:2024-12-13

    申请号:CN202411050481.7

    申请日:2024-08-01

    Abstract: 本发明公开了一种基于状态空间模型跨模态交互的多模态情感识别方法,属于多模态情感识别技术领域,步骤包括:首先,提取语音和文本的低级特征,并采用对角线版本的结构化状态空间序列模型提取S4D特征,以便充分利用其独特的序列建模能力和鲁棒性的特征提取能力,有效捕获声音和文本数据复杂的时间相关性;其次,为了融合声音和文本的模态特征,本发明提出了多种跨模态融合策略来动态学习模态之间的权重;此外,为了更好地区分不同类别的情感,本发明设计了一个三元组损失,并将其与交叉熵损失相结合,以提高模型在情感分类中的准确性;最后,进行了消融实验,验证了该方法的有效性。本发明有效提升了多模态情感识别系统的性能和泛化能力。

Patent Agency Ranking