一种基于跨模态重建的平衡多模态视频分析方法及系统

    公开(公告)号:CN117671559A

    公开(公告)日:2024-03-08

    申请号:CN202311562469.X

    申请日:2023-11-22

    Inventor: 陈崇忠 林菲

    Abstract: 本发明公开了一种基于跨模态重建的平衡多模态视频分析方法及系统,该方法首先分别对视频和语音片段进行预处理操作,得到视觉模态的特征矩阵V和语音模态的特征矩阵A。其次将特征矩阵V和特征矩阵A,输入到跨模态重建编码器,生成新模态N。然后将新模态N分别与特征矩阵V以及特征矩阵A进行跨模态对比学习,再进行多模态融合得到融合后的特征矩阵FAV。最后将特征矩阵FAV输入到多模态视频分析网络,通过计算模态间的差异化比率,对模型的训练过程执行多模态平衡调制策略,得到视频分析结果。本发明提高了整体的准确率,充分解决了多模态之间异质性差异的问题。

Patent Agency Ranking