一种基于位置编码融合的密集型视频描述方法

    公开(公告)号:CN111814844A

    公开(公告)日:2020-10-23

    申请号:CN202010563286.X

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 杨思璇

    Abstract: 本发明涉及一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比,本发明具有事件定位能力强、描述准确性高等优点。

    一种基于位置编码融合的密集型视频描述方法

    公开(公告)号:CN111814844B

    公开(公告)日:2023-07-11

    申请号:CN202010563286.X

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 杨思璇

    Abstract: 本发明涉及一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比,本发明具有事件定位能力强、描述准确性高等优点。

Patent Agency Ranking