-
公开(公告)号:CN119128578A
公开(公告)日:2024-12-13
申请号:CN202411050481.7
申请日:2024-08-01
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于状态空间模型跨模态交互的多模态情感识别方法,属于多模态情感识别技术领域,步骤包括:首先,提取语音和文本的低级特征,并采用对角线版本的结构化状态空间序列模型提取S4D特征,以便充分利用其独特的序列建模能力和鲁棒性的特征提取能力,有效捕获声音和文本数据复杂的时间相关性;其次,为了融合声音和文本的模态特征,本发明提出了多种跨模态融合策略来动态学习模态之间的权重;此外,为了更好地区分不同类别的情感,本发明设计了一个三元组损失,并将其与交叉熵损失相结合,以提高模型在情感分类中的准确性;最后,进行了消融实验,验证了该方法的有效性。本发明有效提升了多模态情感识别系统的性能和泛化能力。
-
公开(公告)号:CN119128577A
公开(公告)日:2024-12-13
申请号:CN202411050319.5
申请日:2024-08-01
Applicant: 南京邮电大学
IPC: G06F18/24 , G06F18/213 , G06F18/25 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于三模态Mamba交互和级联分层融合的多模态情感识别方法,步骤包括:首先,对语音、文本和视频进行编码提取深度特征,通过本发明提出的基于三模态Mamba交互模块捕获不同模态信息长距离的依赖关系,并利用不同模态信息间互补性得到多模态特征的增强表示;然后利用提出的级联分层融合机制来动态整合不同阶段的语义特征,获得语义丰富的多模态情感表示;最后,进行了消融实验,验证了该方法的有效性。本发明实现了对多模态情感识别的有效并行计算,提高了多模态情感识别系统的识别性能和泛化能力。
-