Patent search ap:("南京信息工程大学") AND inv:"王梓淇" Page 1

1.

发明公开
基于Transformer的视频多标签动作识别方法有权

公开(公告)号：CN113688871A

公开(公告)日：2021-11-23

申请号：CN202110844557.3

申请日：2021-07-26

Applicant: 南京信息工程大学

Inventor： 周志立 , 董晓华 , 王美民 , 吉千凡 , 王梓淇

IPC: G06K9/62 , G06K9/00 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于Transformer的视频多标签动作识别方法，具体为：对提取的长视频的特征序列进行降维处理得到新的特征序列F，将特征序列F与预设第一权重矩阵W相乘得到特征序列V，将V中每个元素对应的视频帧的时序位置进行编码，得到编码矩阵P；将V和P输入至Transformer编码器得到序列V′，根据V′提取长视频中关键动作的开始帧和结束帧；将预设的序列与P分别作为Transformer解码器的输入；将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系，从而提高了多标签分类的精度。

2.

发明授权
基于Transformer的视频多标签动作识别方法有权

公开(公告)号：CN113688871B

公开(公告)日：2022-07-01

申请号：CN202110844557.3

申请日：2021-07-26

Applicant: 南京信息工程大学

Inventor： 周志立 , 董晓华 , 王美民 , 吉千凡 , 王梓淇

IPC: G06V10/764 , G06V20/40 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于Transformer的视频多标签动作识别方法，具体为：对提取的长视频的特征序列进行降维处理得到新的特征序列F，将特征序列F与预设第一权重矩阵W相乘得到特征序列V，将V中每个元素对应的视频帧的时序位置进行编码，得到编码矩阵P；将V和P输入至Transformer编码器得到序列V′，根据V′提取长视频中关键动作的开始帧和结束帧；将预设的序列与P分别作为Transformer解码器的输入；将V′中将开始帧和结束帧以及位于两者之间的元素输入至Transformer解码器Muti‑head Attention层。本发明考虑了标签与标签之间的联系，从而提高了多标签分类的精度。

Patent Agency Ranking