-
公开(公告)号:CN114549317B
公开(公告)日:2025-04-25
申请号:CN202210167971.X
申请日:2022-02-23
Applicant: 同济大学
Abstract: 本发明涉及一种基于时空超分辨率的视频描述方法及电子设备,所述方法基于一视频描述模型实现,包括以下步骤:获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句;其中,所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。与现有技术相比,本发明具有描述丰富准确、泛化能力强、计算开销低等优点。
-
公开(公告)号:CN114549317A
公开(公告)日:2022-05-27
申请号:CN202210167971.X
申请日:2022-02-23
Applicant: 同济大学
Abstract: 本发明涉及一种基于时空超分辨率的视频描述方法及电子设备,所述方法基于一视频描述模型实现,包括以下步骤:获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句;其中,所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。与现有技术相比,本发明具有描述丰富准确、泛化能力强、计算开销低等优点。
-