一种基于加速Transformer模型的视频分类方法

    公开(公告)号:CN114048818B

    公开(公告)日:2024-12-17

    申请号:CN202111358049.0

    申请日:2021-11-16

    Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。

    一种基于关系感知的视频时序定位方法及装置

    公开(公告)号:CN119603502A

    公开(公告)日:2025-03-11

    申请号:CN202411727463.8

    申请日:2024-11-28

    Abstract: 本发明公开了一种基于关系感知的视频时序定位方法及装置,本发明首先利用预训练的视频编码器和文本编码器对视频和文本进行特征提取,并将其映射到公共特征空间。随后,通过模态内的信息交互生成富含上下文的特征序列。接着,通过单词级特征融合模块进行模态间信息交互。在此基础上,使用前景帧探测器和关系信号生成器,分别计算视频与文本之间的细粒度和粗粒度相关性分数。接着,多粒度判别器将这两类相关性进行综合,生成多粒度相关性分数,用于提供相关性反馈。最后通过关系感知的片段预测头,在视频时序定位的过程中引入相关反馈,使模型能够应对视频中可能不存在相关片段的情况。

    一种基于CNN-Transformer双流网络的细粒度服饰检索方法

    公开(公告)号:CN115410067A

    公开(公告)日:2022-11-29

    申请号:CN202211014352.3

    申请日:2022-08-23

    Abstract: 本发明公开了一种基于CNN‑Transformer双流网络的细粒度服饰检索方法,该方法包括:首先将图像输入到CNN网络中提取特征;将服饰属性映射为特征向量,然后引导注意力模块提取与属性相关的粗粒度图像特征,其中生成的注意力矩阵用于定位图像中与属性相关的局部区域;将图像中的局部区域以及服饰属性输入到Transformer网络中提取细粒度图像特征;最后将两分支的特征进行融合,得到服饰图像的鲁棒性表达并使用相似性计算进行服饰检索;在原始Transformer的基础上引入Dilated‑Transformer变体,减少模型计算量,加快训练和推理速度。本发明使用新颖的CNN‑Transformer双流结构,利用两种网络结构的互补性对服饰图像进行由粗到精的特征表示,最终融合粗粒度和细粒度的特征以实现较高性能的检索。

    一种基于加速Transformer模型的视频分类方法

    公开(公告)号:CN114048818A

    公开(公告)日:2022-02-15

    申请号:CN202111358049.0

    申请日:2021-11-16

    Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。

Patent Agency Ranking