基于Transformer的视频多标签动作识别方法

    公开(公告)号:CN113688871A

    公开(公告)日:2021-11-23

    申请号:CN202110844557.3

    申请日:2021-07-26

    Abstract: 本发明公开了一种基于Transformer的视频多标签动作识别方法,具体为:对提取的长视频的特征序列进行降维处理得到新的特征序列F,将特征序列F与预设第一权重矩阵W相乘得到特征序列V,将V中每个元素对应的视频帧的时序位置进行编码,得到编码矩阵P;将V和P输入至Transformer编码器得到序列V′,根据V′提取长视频中关键动作的开始帧和结束帧;将预设的序列与P分别作为Transformer解码器的输入;将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系,从而提高了多标签分类的精度。

    基于Transformer的视频多标签动作识别方法

    公开(公告)号:CN113688871B

    公开(公告)日:2022-07-01

    申请号:CN202110844557.3

    申请日:2021-07-26

    Abstract: 本发明公开了一种基于Transformer的视频多标签动作识别方法,具体为:对提取的长视频的特征序列进行降维处理得到新的特征序列F,将特征序列F与预设第一权重矩阵W相乘得到特征序列V,将V中每个元素对应的视频帧的时序位置进行编码,得到编码矩阵P;将V和P输入至Transformer编码器得到序列V′,根据V′提取长视频中关键动作的开始帧和结束帧;将预设的序列与P分别作为Transformer解码器的输入;将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系,从而提高了多标签分类的精度。

Patent Agency Ranking