一种基于多模态融合注意力的音视频分割的方法及系统

    公开(公告)号:CN117951335A

    公开(公告)日:2024-04-30

    申请号:CN202410196515.7

    申请日:2024-02-22

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于多模态融合注意力的音视频分割的方法及系统,包括:从视频中提取图片和音频对齐的实体对以及相应的特征;分别使用通道维度和空间维度的特征的跨模态注意力机制在进行特征聚合,生成考虑到音视频模态间的融合特征,并使用卷积进行特征整合以保持实体特征嵌入的维度不变,生成全局融合特征表示;将视觉特征和音频特征分别作为自注意力机制的输入,得到的两个输出与模态间的两个输出分别做对应的拼接操作,将两个特征作为输入进行对比学习;最后结合对比学习损失和交叉熵损失计算总损失,对网络模型进行训练,用训练完的模型分割视频中发声实体。本发明能够有效的分割视频中发声的对象,具有准确率高和音视频对齐准确等特点。

Patent Agency Ranking