一种基于并行解码的端到端密集视频字幕生成方法

    公开(公告)号:CN117061687A

    公开(公告)日:2023-11-14

    申请号:CN202310806610.X

    申请日:2023-07-03

    Inventor: 杨微微 刘斌

    Abstract: 本发明公开了一种基于并行解码的端到端密集视频字幕生成方法,提出的语义上下文化网络使用语言信息将视觉内容上下文化,改进了之前的仅依靠视觉内容来编码视觉特征。通过并行预测头同时执行事件个数预测、事件定位和字幕生成,略去了先前模型利用先验阈值进行事件提案划分的步骤,从而在保证字幕生成准确性的条件下大大降低了计算复杂度。此外,通过表示组织器组织编码的视频特征和多栈交叉注意,缓解了现有并行体系架构方法在分支点处的瓶颈问题。

Patent Agency Ranking