-
公开(公告)号:CN113688871A
公开(公告)日:2021-11-23
申请号:CN202110844557.3
申请日:2021-07-26
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于Transformer的视频多标签动作识别方法,具体为:对提取的长视频的特征序列进行降维处理得到新的特征序列F,将特征序列F与预设第一权重矩阵W相乘得到特征序列V,将V中每个元素对应的视频帧的时序位置进行编码,得到编码矩阵P;将V和P输入至Transformer编码器得到序列V′,根据V′提取长视频中关键动作的开始帧和结束帧;将预设的序列与P分别作为Transformer解码器的输入;将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系,从而提高了多标签分类的精度。
-
公开(公告)号:CN113688871B
公开(公告)日:2022-07-01
申请号:CN202110844557.3
申请日:2021-07-26
Applicant: 南京信息工程大学
Abstract: 本发明公开了一种基于Transformer的视频多标签动作识别方法,具体为:对提取的长视频的特征序列进行降维处理得到新的特征序列F,将特征序列F与预设第一权重矩阵W相乘得到特征序列V,将V中每个元素对应的视频帧的时序位置进行编码,得到编码矩阵P;将V和P输入至Transformer编码器得到序列V′,根据V′提取长视频中关键动作的开始帧和结束帧;将预设的序列与P分别作为Transformer解码器的输入;将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系,从而提高了多标签分类的精度。
-