一种基于模态内间协同多线性池化的视频时序定位方法

    公开(公告)号:CN111368870B

    公开(公告)日:2023-09-05

    申请号:CN201911063010.9

    申请日:2019-10-31

    Inventor: 余宙 俞俊 宋怡君

    Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频‑文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。

    一种基于模态内间协同多线性池化的视频时序定位方法

    公开(公告)号:CN111368870A

    公开(公告)日:2020-07-03

    申请号:CN201911063010.9

    申请日:2019-10-31

    Inventor: 余宙 俞俊 宋怡君

    Abstract: 本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤:1、对视频和文本数据进行数据预处理,提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练,将多任务损失函数放入优化器,通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络,特别是提出一种对视频-文本的数据进行跨模态融合的模块,充分利用各模态的深层次特征,由此模块延伸出一种同时对视频时序信息的交互方法,提高了扩模态特征的表达能力,并且在视频时序定位领域中的获得较好效果。

Patent Agency Ranking