-
公开(公告)号:CN117576611A
公开(公告)日:2024-02-20
申请号:CN202311567520.6
申请日:2023-11-22
Applicant: 南京工业大学
IPC: G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06V10/80
Abstract: 本发明公开了一种基于双图和门控融合的视频描述生成方法,包括以下步骤:提取源视频的外观特征、运动特征和对象特征;采用独立的双向循环神经网络,分别对外观特征和运动特征进行时序预处理编码,生成外观时序特征和运动时序特征;采用双图特征增强模块,对外观时序特征、运动时序特征和对象特征进行处理,生成两种高级外观特征和两种高级运动特征;将获取的四种高级特征输入带有多注意力模块和门控融合模块的分级解码器,解码生成视频的描述文本。本发明提出的一种基于双图和门控融合的视频描述生成方法通过采用双图特征增强模块,能够充分利用各帧之间的内容相关性,生成多种高级帧级特征来更准确全面地表征视频的语义,同时通过采用多注意力模块和门控融合模块,能够生成更加准确的上下文特征和更加有效的融合特征,最终通过分级解码器生成更准确的视频描述文本。