一种基于掩码Transformer的端到端密集视频描述生成方法

    公开(公告)号:CN118741267A

    公开(公告)日:2024-10-01

    申请号:CN202410780296.7

    申请日:2024-06-17

    Inventor: 陆良伟 刘斌

    Abstract: 本文提供了一种基于掩码的Transformer网络的端到端的视频描述生成方法,包括步骤:视频内容编码,通过卷积神经网络将输入视频内容帧编码为一组连续的视觉表示;特征提取与编码,利用设计的视频编码器提取视觉特征,并对视觉特征进行编码得到视觉信息编码;事件提案生成,利用锚点偏移机制为视频生成事件提案元组;视频描述生成,通过生成的事件提案元组与视频编码器输出的视觉信息加上掩码函数后,利用Transformer网络的解码器部分对每一个提案事件进行解码并生成描述;最后通过事件计数器,选择合适数量的事件提案描述输出,优化视频描述质量。与现有的使用Transformer网络的视频描述方法相比,通过加入掩码函数可以将模型的接受区域更好地限制在当前片段上,将视觉表示更好地集中在描述当前事件上;通过在输出端口添加了一个事件计数模块,帮助模型输出合适数量的提案描述,优化了生成事件太多或太少造成的糟糕可读性以及信息缺失问题。

Patent Agency Ranking