一种基于加速Transformer模型的视频分类方法

    公开(公告)号:CN114048818A

    公开(公告)日:2022-02-15

    申请号:CN202111358049.0

    申请日:2021-11-16

    摘要: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。

    一种剧场环境下基于近红外防伪油墨的演员身份重识别方法

    公开(公告)号:CN113920164B

    公开(公告)日:2024-05-24

    申请号:CN202111252678.5

    申请日:2021-10-27

    摘要: 本发明公开了一种剧场环境下基于近红外防伪油墨的演员身份重识别方法。该方法通过近红外相机获取彩色相机中不可见的近红外防伪油墨标记,然后将图像送入训练好的检测器与分类器中,最终实现对舞台上表观相似演员跟踪时的身份重识别。本方法用仅近红外相机可见的近红外防伪油墨标记替代已有的演员表观信息或传感器作为区分演员身份的关键特征,具有以下优势:极大程度减少了舞台复杂光照对演员跟踪过程中身份识别稳定性的干扰,以及通过引入特有近红外防伪油墨标记信息解决了演员表观相似所带来的跟踪困难问题。与基于传感器的身份识别方法相比,该方法成本低,操作性强,在舞台演出中具有普遍的适用性。

    基于双分支动态蒸馏学习的跨模态视频检索方法及装置

    公开(公告)号:CN116226452A

    公开(公告)日:2023-06-06

    申请号:CN202310226304.9

    申请日:2023-03-03

    摘要: 本发明公开了一种基于双分支动态蒸馏学习的跨模态视频检索方法及装置,从一个新的角度来处理跨模态视频检索,即从大规模视觉语言预训练模型中提取泛化知识,并将其转移到任务特定网络。该方法是一个具有动态知识蒸馏的双重学习框架,利用大规模视觉语言模型的知识作为教师来指导学生模型。在知识蒸馏过程中,设计了一个继承分支来吸收教师模型中的知识,同时为了避免大规模预训练模型由于领域差距而导致的性能差异,设计了一个探索分支来探索下游任务的特定属性。本发明提出的网络模型利用双分支结构,能够深度建模文本和对应视频间的相关关系,从而有效解决文本到视频的检索任务。

    一种多模态融合的小样本舞蹈动作识别方法及装置

    公开(公告)号:CN115661561A

    公开(公告)日:2023-01-31

    申请号:CN202210767390.X

    申请日:2022-06-30

    摘要: 本发明公开了一种多模态融合的小样本舞蹈动作识别方法及装置,提出使用基于视频预览指导的多模态数据融合的方法,将多模态数据的特征学习方式应用至小样本舞蹈动作识别任务中,并通过不同模态数据交汇融合的方式,缓解了小样本领域因数据量过少而导致的识别困难问题。相较于传统小样本动作识别方法,本方法利用多模态信息,有效解决了rgb单模态数据在视频动作识别时性能不够鲁棒的问题;此外,使用的视频预览指导多模态数据融合的方法,加强了模型在各模态空间中的语义提取能力。相较于传统小样本动作识别方法,本发明所提出的方法识别性能更强,利用视频信息特征更充分,更适应于小样本舞蹈动作识别任务。

    基于多面视频表示学习的文本到视频的跨模态检索方法

    公开(公告)号:CN114817627A

    公开(公告)日:2022-07-29

    申请号:CN202210425802.1

    申请日:2022-04-21

    摘要: 本发明公开了一种基于多面视频表示学习的文本到视频的跨模态检索方法,该方法包括:获取视频和文本初步特征;使用视频分镜工具将视频初始帧按照不同场景进行分组后,输入显示编码分支进行显式编码,得到视频不同场景的显式多面表示;将视频初始特征输入到隐式编码分支,通过前导特征多重注意力网络对视频初始特征进行隐式编码,获得表达视频不同语义内容的隐式多面表示;将两分支的多面编码相互融合得到多面视频特征表示;将多面视频特征表示和文本特征分别映射到公共空间中,利用公共空间学习算法来学习两模态之间相关度,以端到端的方式训练模型,实现文本到视频的跨模态检索。本发明方法利用视频多面表示思想,提高了检索性能。

    一种基于层级多视角的自监督动作识别方法及装置

    公开(公告)号:CN115147676A

    公开(公告)日:2022-10-04

    申请号:CN202210724589.4

    申请日:2022-06-23

    摘要: 本发明公开了一种基于层级多视角的自监督动作识别方法及装置,该方法包括:先是对比学习的预训练阶段,原始数据通过数据增强和重组分别通过key编码器和query编码器提取特征构造正负样本。特征提取时通过视角生成模块得到不同尺度的子视角,分别通过Transformer编码、聚合、拼接后得到时间特征、空间特征以及两者的组合:时空特征。时空特征通过对比损失达到拉近正样本、推远负样本的目标以获取特征表示能力。通过时间特征和空间特征间的一致性损失拉近不同视角间的特征距离。本发明是骨架动作识别领域一种新颖的层级化视角的建模方法,可以深入挖掘不同视角间的互补信息,能够实现比现有方法性能更好的骨架动作识别。

    一种剧场环境下基于近红外防伪油墨的演员身份重识别方法

    公开(公告)号:CN113920164A

    公开(公告)日:2022-01-11

    申请号:CN202111252678.5

    申请日:2021-10-27

    摘要: 本发明公开了一种剧场环境下基于近红外防伪油墨的演员身份重识别方法。该方法通过近红外相机获取彩色相机中不可见的近红外防伪油墨标记,然后将图像送入训练好的检测器与分类器中,最终实现对舞台上表观相似演员跟踪时的身份重识别。本方法用仅近红外相机可见的近红外防伪油墨标记替代已有的演员表观信息或传感器作为区分演员身份的关键特征,具有以下优势:极大程度减少了舞台复杂光照对演员跟踪过程中身份识别稳定性的干扰,以及通过引入特有近红外防伪油墨标记信息解决了演员表观相似所带来的跟踪困难问题。与基于传感器的身份识别方法相比,该方法成本低,操作性强,在舞台演出中具有普遍的适用性。

    一种基于多粒度特征交互的跨模态检索方法

    公开(公告)号:CN114037945A

    公开(公告)日:2022-02-11

    申请号:CN202111506944.2

    申请日:2021-12-10

    摘要: 本发明公开了一种基于多粒度特征交互的跨模态检索方法,用于实现视频和文本之间的相互检索任务。本发明使用全局视觉语义特征指导局部视觉语义特征来获取更加细粒度的局部信息,随后让全局视觉语义特征和经过增强的局部视觉语义特征进行相互学习融合得到视频级别的特征。将经过学习得到的视频级别特征与文本特征映射到同一个嵌入空间中,在嵌入空间中进行跨模态匹配,从而实现文本和视频之间的跨模态检索。本发明是一种基于神经网络的跨模态检索方法,在性能和复杂度上达到了较优平衡。