一种基于Vision Transformer和强化学习的视频内容描述方法

    公开(公告)号:CN115249275B

    公开(公告)日:2025-03-25

    申请号:CN202111332783.X

    申请日:2021-11-11

    Abstract: 本发明公开了一种基于Vision Transformer和强化学习的视频内容描述方法,包括步骤:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;特征提取,使用ResNet‑152网络和ResNeXt‑101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;特征编码,利用Vision Transformer模型的编码器对所述静态特征和动态特征进行特征编码;特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;强化学习优化;和生成视频内容描述。本发明克服了在编码阶段极易丢失大量中间隐藏信息,导致描述准确率低的问题,有效地提高视频描述的准确率,同时,本发明所生成的视频内容描述具有逻辑性强、可读性高的优点。

    一种基于SE模块增强ViT模型鲁棒性的方法

    公开(公告)号:CN115146762B

    公开(公告)日:2024-10-29

    申请号:CN202210668973.7

    申请日:2022-06-14

    Abstract: 本发明公开了一种基于SE模块增强ViT模型鲁棒性的方法,包括步骤:使用多种对抗攻击算法生成对抗样本,验证所提出现有的ViT模型的防御方法在面对不同对抗样本时的鲁棒性;将对抗样本输入所提出ViT模型的Convolutional Token Embedding层,然后再通过归一化层;将S2得到的特征输入SE‑Transformer块,特征首先经过SE模块,然后计算特征的Query、Key和Value值;将步骤S2、S3重复执行,并在最后阶段中添加cls分类标记;使用MLP Head预测最终的类别,计算准确率。本发明利用SE模块突出每个特征图的重要信息,抑制次要信息,有助于模型进行关键特征的提取,强化通道的特征信息,减少无用的特征;同时结合ViT模型的自注意力机制(self‑attention)可以提取特征的长距离信息。

    基于内容的高时长复杂场景视频不良内容检测方法

    公开(公告)号:CN113505680B

    公开(公告)日:2022-07-15

    申请号:CN202110747446.0

    申请日:2021-07-02

    Abstract: 本发明公开了基于内容的高时长复杂场景视频不良内容检测方法,包括步骤:构造高低分辨率特征图融合单元模块,构造多分辨率图像预处理网络;将视频数据进行标注后处理为合适的训练格式;搭建低延迟复杂场景分割网络;使用处理后的视频数据集进行训练,得到低延迟复杂场景分割模型;使用低延迟复杂场景分割模型和双进程调度方案,对视频进行视频缩略和重点位置标注;构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类。本发明克服了现有技术中处理高分辨率复杂场景变化的长视频效率低下、对硬件要求高、延迟高的弊端。

    基于内容的高时长复杂场景视频不良内容检测方法

    公开(公告)号:CN113505680A

    公开(公告)日:2021-10-15

    申请号:CN202110747446.0

    申请日:2021-07-02

    Abstract: 本发明公开了基于内容的高时长复杂场景视频不良内容检测方法,包括步骤:构造高低分辨率特征图融合单元模块,构造高分辨率图像预处理网络;将视频数据进行标注后处理为合适的训练格式;搭建低延迟复杂场景分割网络;使用处理后的视频数据集进行训练,得到低延迟复杂场景分割模型;使用低延迟复杂场景分割模型和双进程调度方案,对视频进行视频缩略和重点位置标注;构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类。本发明克服了现有技术中处理高分辨率复杂场景变化的长视频效率低下、对硬件要求高、延迟高的弊端。

    一种基于SE模块增强ViT模型鲁棒性的方法

    公开(公告)号:CN115146762A

    公开(公告)日:2022-10-04

    申请号:CN202210668973.7

    申请日:2022-06-14

    Abstract: 本发明公开了一种基于SE模块增强ViT模型鲁棒性的方法,包括步骤:使用多种对抗攻击算法生成对抗样本,验证所提出现有的ViT模型的防御方法在面对不同对抗样本时的鲁棒性;将对抗样本输入所提出ViT模型的Convolutional Token Embedding层,然后再通过归一化层;将S2得到的特征输入SE‑Transformer块,特征首先经过SE模块,然后计算特征的Query、Key和Value值;将步骤S2、S3重复执行,并在最后阶段中添加cls分类标记;使用MLP Head预测最终的类别,计算准确率。本发明利用SE模块突出每个特征图的重要信息,抑制次要信息,有助于模型进行关键特征的提取,强化通道的特征信息,减少无用的特征;同时结合ViT模型的自注意力机制(self‑attention)可以提取特征的长距离信息。

    基于内容的高时长视频色情内容检测方法

    公开(公告)号:CN113505247B

    公开(公告)日:2022-06-07

    申请号:CN202110747290.6

    申请日:2021-07-02

    Abstract: 本发明公开了基于内容的高时长视频色情内容检测方法,包括步骤:构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类;构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;对原视频附带的评论文本进行分类,并记录结果;构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;对原视频附带的封面图像进行分类,并记录结果;针对于原视频的视频、封面、评论的结果进行综合评定。本发明克服了现有技术中处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。

    一种基于Vision Transformer和强化学习的视频内容描述方法

    公开(公告)号:CN115249275A

    公开(公告)日:2022-10-28

    申请号:CN202111332783.X

    申请日:2021-11-11

    Abstract: 本发明公开了一种基于Vision Transformer和强化学习的视频内容描述方法,包括步骤:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;特征提取,使用ResNet‑152网络和ResNeXt‑101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;特征编码,利用Vision Transformer模型的编码器对所述静态特征和动态特征进行特征编码;特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;强化学习优化;和生成视频内容描述。本发明克服了在编码阶段极易丢失大量中间隐藏信息,导致描述准确率低的问题,有效地提高视频描述的准确率,同时,本发明所生成的视频内容描述具有逻辑性强、可读性高的优点。

    基于内容的高时长视频色情内容检测方法

    公开(公告)号:CN113505247A

    公开(公告)日:2021-10-15

    申请号:CN202110747290.6

    申请日:2021-07-02

    Abstract: 本发明公开了基于内容的高时长视频色情内容检测方法,包括步骤:构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类;构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;对原视频附带的评论文本进行分类,并记录结果;构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;对原视频附带的封面图像进行分类,并记录结果;针对于原视频的视频、封面、评论的结果进行综合评定。本发明克服了现有技术中处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。

    一种基于二维图片的人体三维模型重建及参数测量方法

    公开(公告)号:CN113379888B

    公开(公告)日:2023-08-22

    申请号:CN202110060417.7

    申请日:2021-01-18

    Abstract: 本发明公开了一种基于图片的人体三维重建及参数测量方法,包括步骤:将获取的二维图片进行人体骨骼关键点检测与关联,得到关键点在二维图片中的相对位置;根据关键点在二维图片中的相对位置,进行二维图片到正面法线图与背面法线图的转换;利用二维图片、正面法线图与背面法线图得到人体三维模型;将人体三维模型导入3d Max,分割出人体的胸围、腰围、臀围、肩宽的截面,进行模型参数的测量;计算三维模型数据与人体真实数据之间的比例系数;将测量的三维模型数据乘以比例系数进行修正,得到真实的人体数据。本发明为人体参数的测量提供了一种新方法,丰富了人体数据的检测手段,具有数据获取快、运行成本低、操作简单、精确性高等特点。

Patent Agency Ranking