基于文本与视觉的时空关联型多模态情感识别方法、系统

    公开(公告)号:CN116258989A

    公开(公告)日:2023-06-13

    申请号:CN202310038133.7

    申请日:2023-01-10

    Abstract: 本发明公开了基于文本与视觉的时空关联型多模态情感识别方法、系统。首先将短视频样本裁剪成一定大小的图像块,使用卷积神经网络提取视觉特征,降维后输入到多层自注意力混合网络中,提取时空维度的深层视觉情感特征;随后用词向量模型将短视频中的文本对话转换为词向量序列,输入到自注意力神经网络中,提取深层文本情感特征;最后将视觉与文本深层情感特征进行拼接,添加全连接神经网络,利用分类器预测最终结果。本发明可以根据视频样本中图像在时间与空间维度的变化,高效地利用多头自注意力网络进行深层特征提取,尽可能地减少时间与空间特征融合过程中的信息损失,最后融合文本模态的情感特征,提高模态分类的准确率。

Patent Agency Ranking