一种基于对称多尺度注意力的视频摘要方法

    公开(公告)号:CN117493607A

    公开(公告)日:2024-02-02

    申请号:CN202311415276.1

    申请日:2023-10-30

    Abstract: 本发明公开了一种基于对称多尺度注意力的视频摘要方法,该方法首先获得原始视频帧序列,并利用预训练好的特征提取模型对视频帧进行特征提取,得到视频帧级特征。其次构建视频摘要生成网络,将提取的视频帧级特征输入到所述构建的视频摘要生成网络中生成帧级重要性得分。然后构建均方误差损失函数,计算预测的关键帧序列与真实值之间的差距并损失,迭代优化整个网络直至收敛最后根据帧级重要性得分,将预测的关键帧序列使用核时序分割方法转化01背包问题进行求解,获得关键镜头序列,输出视频摘要结果。本发明改善模型捕捉变长上下文场景信息的能力,准确生成视频摘要。

Patent Agency Ranking