-
公开(公告)号:CN115146762A
公开(公告)日:2022-10-04
申请号:CN202210668973.7
申请日:2022-06-14
Applicant: 兰州理工大学
Abstract: 本发明公开了一种基于SE模块增强ViT模型鲁棒性的方法,包括步骤:使用多种对抗攻击算法生成对抗样本,验证所提出现有的ViT模型的防御方法在面对不同对抗样本时的鲁棒性;将对抗样本输入所提出ViT模型的Convolutional Token Embedding层,然后再通过归一化层;将S2得到的特征输入SE‑Transformer块,特征首先经过SE模块,然后计算特征的Query、Key和Value值;将步骤S2、S3重复执行,并在最后阶段中添加cls分类标记;使用MLP Head预测最终的类别,计算准确率。本发明利用SE模块突出每个特征图的重要信息,抑制次要信息,有助于模型进行关键特征的提取,强化通道的特征信息,减少无用的特征;同时结合ViT模型的自注意力机制(self‑attention)可以提取特征的长距离信息。
-
公开(公告)号:CN113505247B
公开(公告)日:2022-06-07
申请号:CN202110747290.6
申请日:2021-07-02
Applicant: 兰州理工大学
IPC: G06F16/38 , G06F16/35 , G06V20/40 , G06V10/774 , G06V10/80 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了基于内容的高时长视频色情内容检测方法,包括步骤:构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类;构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;对原视频附带的评论文本进行分类,并记录结果;构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;对原视频附带的封面图像进行分类,并记录结果;针对于原视频的视频、封面、评论的结果进行综合评定。本发明克服了现有技术中处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。
-
公开(公告)号:CN113379888B
公开(公告)日:2023-08-22
申请号:CN202110060417.7
申请日:2021-01-18
Applicant: 兰州理工大学
IPC: G06T17/00 , G06T7/00 , G06N3/0464
Abstract: 本发明公开了一种基于图片的人体三维重建及参数测量方法,包括步骤:将获取的二维图片进行人体骨骼关键点检测与关联,得到关键点在二维图片中的相对位置;根据关键点在二维图片中的相对位置,进行二维图片到正面法线图与背面法线图的转换;利用二维图片、正面法线图与背面法线图得到人体三维模型;将人体三维模型导入3d Max,分割出人体的胸围、腰围、臀围、肩宽的截面,进行模型参数的测量;计算三维模型数据与人体真实数据之间的比例系数;将测量的三维模型数据乘以比例系数进行修正,得到真实的人体数据。本发明为人体参数的测量提供了一种新方法,丰富了人体数据的检测手段,具有数据获取快、运行成本低、操作简单、精确性高等特点。
-
公开(公告)号:CN115374931A
公开(公告)日:2022-11-22
申请号:CN202111496687.9
申请日:2021-12-09
Applicant: 兰州理工大学
Abstract: 本发明公开了一种基于元对抗训练的深度神经网络鲁棒性增强方法,包括步骤:使用多种对抗攻击算法生成对抗样本,验证元对抗训练防御方法的鲁棒性;将对抗样本与干净样本按照不同的比例进行融合构造训练集;使用卷积神经网络的卷积操作对所述训练集中的数据进行特征提取;元学习阶段,变换特征提取器的参数,使得深度神经网络快速适应小样本任务;输出对抗样本的类别,计算准确率。与现有技术相比,在对抗训练过程中加入元学习方法,利用元学习在面对新出现的样本时具有较强的泛化性、较高的识别准确率的特点,解决对抗训练泛化性较差的问题。
-
公开(公告)号:CN113379888A
公开(公告)日:2021-09-10
申请号:CN202110060417.7
申请日:2021-01-18
Applicant: 兰州理工大学
Abstract: 本发明公开了一种基于图片的人体三维重建及参数测量方法,包括步骤:将获取的二维图片进行人体骨骼关键点检测与关联,得到关键点在二维图片中的相对位置;根据关键点在二维图片中的相对位置,进行二维图片到正面法线图与背面法线图的转换;利用二维图片、正面法线图与背面法线图得到人体三维模型;将人体三维模型导入3d Max,分割出人体的胸围、腰围、臀围、肩宽的截面,进行模型参数的测量;计算三维模型数据与人体真实数据之间的比例系数;将测量的三维模型数据乘以比例系数进行修正,得到真实的人体数据。本发明为人体参数的测量提供了一种新方法,丰富了人体数据的检测手段,具有数据获取快、运行成本低、操作简单、精确性高等特点。
-
公开(公告)号:CN115249275B
公开(公告)日:2025-03-25
申请号:CN202111332783.X
申请日:2021-11-11
Applicant: 兰州理工大学
IPC: G06T9/00 , G06N3/0464 , G06N3/049 , G06N3/08 , H04N21/84
Abstract: 本发明公开了一种基于Vision Transformer和强化学习的视频内容描述方法,包括步骤:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;特征提取,使用ResNet‑152网络和ResNeXt‑101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;特征编码,利用Vision Transformer模型的编码器对所述静态特征和动态特征进行特征编码;特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;强化学习优化;和生成视频内容描述。本发明克服了在编码阶段极易丢失大量中间隐藏信息,导致描述准确率低的问题,有效地提高视频描述的准确率,同时,本发明所生成的视频内容描述具有逻辑性强、可读性高的优点。
-
公开(公告)号:CN115661697A
公开(公告)日:2023-01-31
申请号:CN202111420124.1
申请日:2021-11-26
Applicant: 兰州理工大学
IPC: G06V20/40 , G06V10/44 , G06V10/62 , G06V10/80 , G06V10/77 , G06V10/82 , G10L25/24 , G06F18/25 , G06N3/0442 , G06N3/0464 , G06N3/048
Abstract: 本发明公开了一种多模态融合结合多层注意力的视频内容描述方法,包括步骤:将数据集中视频的每一帧转换为单张JPEG图像,将视频的音频信息存储为音频文件;提取视频的单帧模态特征,单模态运动时序特征和音频模态MFCC特征;将各单模态特征嵌入到利用self‑attention机制设计的网络结构中,进行单模态特征参数的学习,利用协作表示结构对模态特征进行融合;利用两层LSTM对融合特征进行编码;利用多层LSTM网络对编码后的特征向量进行解码,生成视频对应的描述。本发明克服了现有技术对于视频整体表征信息提取不完善,极易造成中间隐藏信息的丢失,导致生成描述文本准确率低的问题,有效地提高了视频内容描述的准确率。
-
公开(公告)号:CN115249275A
公开(公告)日:2022-10-28
申请号:CN202111332783.X
申请日:2021-11-11
Applicant: 兰州理工大学
Abstract: 本发明公开了一种基于Vision Transformer和强化学习的视频内容描述方法,包括步骤:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;特征提取,使用ResNet‑152网络和ResNeXt‑101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;特征编码,利用Vision Transformer模型的编码器对所述静态特征和动态特征进行特征编码;特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;强化学习优化;和生成视频内容描述。本发明克服了在编码阶段极易丢失大量中间隐藏信息,导致描述准确率低的问题,有效地提高视频描述的准确率,同时,本发明所生成的视频内容描述具有逻辑性强、可读性高的优点。
-
公开(公告)号:CN113505247A
公开(公告)日:2021-10-15
申请号:CN202110747290.6
申请日:2021-07-02
Applicant: 兰州理工大学
Abstract: 本发明公开了基于内容的高时长视频色情内容检测方法,包括步骤:构建时域和空间域分离进行卷积的S3D‑G网络;训练得到视频分类网络模型;将处理后的缩略视频输入视频分类网络模型中进行视频分类;构造文本情感分类网络,使用数据集对此文本情感分类网络进行训练,得到评论色情内容分类模型;对原视频附带的评论文本进行分类,并记录结果;构造图像分类网络,使用数据集对此图像分类网络进行训练,得到封面色情内容分类模型;对原视频附带的封面图像进行分类,并记录结果;针对于原视频的视频、封面、评论的结果进行综合评定。本发明克服了现有技术中处理高分辨率变化的长视频效率低下、对硬件要求高、延迟高的弊端。
-
公开(公告)号:CN115146762B
公开(公告)日:2024-10-29
申请号:CN202210668973.7
申请日:2022-06-14
Applicant: 兰州理工大学
IPC: G06N3/0464 , G06N3/045 , G06N3/048 , G06N3/094
Abstract: 本发明公开了一种基于SE模块增强ViT模型鲁棒性的方法,包括步骤:使用多种对抗攻击算法生成对抗样本,验证所提出现有的ViT模型的防御方法在面对不同对抗样本时的鲁棒性;将对抗样本输入所提出ViT模型的Convolutional Token Embedding层,然后再通过归一化层;将S2得到的特征输入SE‑Transformer块,特征首先经过SE模块,然后计算特征的Query、Key和Value值;将步骤S2、S3重复执行,并在最后阶段中添加cls分类标记;使用MLP Head预测最终的类别,计算准确率。本发明利用SE模块突出每个特征图的重要信息,抑制次要信息,有助于模型进行关键特征的提取,强化通道的特征信息,减少无用的特征;同时结合ViT模型的自注意力机制(self‑attention)可以提取特征的长距离信息。
-
-
-
-
-
-
-
-
-