-
公开(公告)号:CN119478757A
公开(公告)日:2025-02-18
申请号:CN202411329756.0
申请日:2024-09-24
Applicant: 复旦大学
Abstract: 本发明属于视频处理技术领域,具体为基于时序特征融合的高效视频时序定位系统。本发明包括:多模态特征提取器,由视频特征提取器和文本特征提取器构成,用于提取输入视频和文本的特征,可降低计算量;时序特征聚合模块,在文本查询的指导下,通过不同的卷积核在多个不同时间尺度上提取视频中时序关系信息进行,得到时序增强的视频特征,以改善视频2D特征中时序信息缺失的问题;多模态编码器,通过使用交叉注意力机制,在节省计算量的情况下将文本和视频两个模态的特征进行融合;预测解码器,用来完成最终视频时序定位结果的预测;本发明可降低计算开销,实现更好的准确性和效率的平衡;在有关公共数据集上取得领先的视频时序定位效果。
-
公开(公告)号:CN119383350A
公开(公告)日:2025-01-28
申请号:CN202411329411.5
申请日:2024-09-24
Applicant: 复旦大学
IPC: H04N19/20
Abstract: 本发明属于视频处理技术领域,具体为基于记忆增强Transformer的端到端视频时序定位系统。本发明包括:视频和文本特征编码模块,由视频特征编码模块和文本特征编码模块构成,分别用于提取输入视频和文本的特征;记忆增强的Transformer,在现有Transformer编码器中引入记忆机制,对视频的特征编码进行增强,并用于视频时序定位;多粒度预测模块,是在前景背景、目标时刻区间和视频片段三个级别上对最终的视频时序定位结果进行多粒度预测。本发明以逐片段分析的方式去处理视频,并在内存中缓存时间上下文信息,可降低整体计算开销,提高视频时序定位的准确性;在公共数据集上取得领先的视频时序定位效果。
-