-
公开(公告)号:CN118172829B
公开(公告)日:2024-09-10
申请号:CN202410262500.6
申请日:2024-03-07
Applicant: 武汉理工大学
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于动作感知的视频描述方法及系统,属于视频描述技术领域,所述方法包括:分别提取每个待描述视频的原始视觉特征;将原始视觉特征输入动作识别预测器,得到高级动作语义特征;将原始视觉特征与动作语义信息进行特征融合,得到动作融合视觉特征;将动作融合视觉特征输入长度预测器,并通过非自回归解码器生成视频描述文本;将动作融合视觉特征输入视觉词解码器,生成视觉词,并将视觉词映射成待描述视频的语言骨架标签;构建多尺度语义骨架损失函数,对视频描述文本进行语言骨架级优化。本发明的方法具备动作感知能力,减少视频中低级错误动作信息的影响,从语言骨架级对描述文本进行优化,从而提升生成的视频描述的精细度。
-
公开(公告)号:CN118570711A
公开(公告)日:2024-08-30
申请号:CN202411059390.X
申请日:2024-08-03
Applicant: 武汉理工大学
IPC: G06V20/40 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/09
Abstract: 本发明提出了一种基于信任风险分配令牌的识别方法、系统及电子设备,属于视频识别领域,方法包括:S1、获取无人机视角的视频序列,将所述视频序列输入至Vision Transformer主干网络中,利用3D卷积对视频序列进行时空特征提取,得到中间特征和中间特征的类别分数;S2、使用快速傅里叶变换进行频域信息分析,得到动态显著性得分;S3、根据动态显著性得分将中间特征中的令牌分为主动令牌和被动令牌;S4、计算每个被动令牌的预测不确定性分数;S5、预测不确定性分数对被动令牌进行排序和筛选;S6、对主动令牌和优化后的被动令牌进行特征提取,得到视频序列中的行为。
-
公开(公告)号:CN117037287B
公开(公告)日:2023-12-29
申请号:CN202311286299.7
申请日:2023-10-08
Applicant: 武汉理工大学
Abstract: 本发明提出了一种基于3D脉冲神经网络的行为识别方法、系统及装置,包括:S1、采集视频数据集,建立3D人工神经网络;S2、将所述训练集的视频数据输入至3D人工神经网络进行训练,得到训练好的3D人工神经网络识别模型;S3、构建3D脉冲神经网络模型;S4、将所述3D人工神经网络识别模型的参数映射到3D脉冲神经网络模型上,设置缩放因子对所述3D脉冲神经网络模型进行缩放;S5、将所述测试集的视频数据输入至缩放后的3D脉冲神经网络模型进行测试,输出视频中行为的预测排序,根据所述预测排序得到视频数据的行为标签。本申请通过对视频数据进行3D特征进行提取,提高3D脉冲神经网络模型识别的(56)对比文件Jianhao Ding 等.Optimal ANN-SNNConversion for Fast and AccurateInference in Deep Spiking NeuralNetworks.arXIV:2105.11654V1 .2021,全文.尚瑛杰 等.基于脉冲神经网络的迁移学习算法与软件框架.计算机工程.2020,(第03期),全文.吴立可.脉冲神经网络和行为识别.通讯世界.2018,(第12期),全文.
-
公开(公告)号:CN110555406A
公开(公告)日:2019-12-10
申请号:CN201910820113.9
申请日:2019-08-31
Applicant: 武汉理工大学
Abstract: 本发明公开了一种基于Haar-like特征及CNN匹配的视频运动目标识别方法,包括以下步骤:1)对视频目标图像进行Haar-like特征提取;2)对视频利用滑动窗口,在加速度特征中提取FFT系数;3)将步骤1)和步骤2)生成的特征进行特征融合;4)利用分类器根据融合特征对视频进行目标识别,得到初步识别结果;5)将识别结果作为输入,利用CNN提取特征;6)将提取到的CNN特征转换为紧凑的二进制编码;7)对给定视频,直接提取CNN特征并转换为紧凑的二进制编码;8)将步骤6)中得到的二进制编码和步骤7)得到的二进制编码利用汉明距离进行比较,输出汉明距离较小的视频图像。本发明方法可以同时关注全局信息以及余部信息,提高视频目标的识别准确率。
-
公开(公告)号:CN117726821A
公开(公告)日:2024-03-19
申请号:CN202410165468.X
申请日:2024-02-05
Applicant: 武汉理工大学
Abstract: 本发明提供一种面向医疗视频中区域遮挡的医护行为识别方法,涉及视频识别技术领域,包括:获取医护视频,利用预训练的检测器对医护视频进行主体检测,得到医护主体轨迹;在医护视频的第一帧中,通过约束条件在背景区域中获得伪遮挡补丁,将伪遮挡补丁粘贴至医护主体上;对于医护视频的剩余帧,根据医护主体轨迹添加时间轨迹,得到带有伪遮挡补丁的医护主体轨迹;令静态分支数据和动态分支数据进行互学习,并训练医护识别网络,得到医护识别模型;获取新的医护视频,利用医护识别模型对新的医护视频进行识别,得到医护主体及医护主体行为轨迹。本发明能够解决医护人员或患者行为主体运动时产生的区域遮挡问题。
-
公开(公告)号:CN110795580B
公开(公告)日:2023-12-08
申请号:CN201911012487.4
申请日:2019-10-23
Applicant: 武汉理工大学
IPC: G06F16/532 , G06F16/583 , G06F16/55 , G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0499
Abstract: 准确率。本发明公开了一种基于时空约束模型优化的车辆重识别方法,该方法包括以下步骤:1)获取待查询车辆图像;2)对于给定的车辆查询图像和若干张候选图片,通过车辆姿态分类器提取出车辆姿态特征并输出车辆姿态类别;3)将车辆姿态特征与车辆的细粒度身份特征融合得到车辆基于视觉信息的融合特征,并得到视觉匹配概率;4)估计车辆相对行驶方向,建立车辆时空转移模型;5)得到车辆时空匹配概率;6)基于贝叶斯概率模型,联合车辆的视觉匹配概率与时空匹配概率得到最终车辆匹配的联合概率;7)将查询车辆与所有的候选车辆匹配的联合概率按降序(56)对比文件Wang Z, Tang L, LIu X,etal..Orientation Invariant FeatureEmbedding and Spatial TemporalRegularization for Vehicle Re-identification.Proceeedings of the IEEEinternational conference on computervision.2017,第379-387页.
-
公开(公告)号:CN116612537A
公开(公告)日:2023-08-18
申请号:CN202310898874.2
申请日:2023-07-21
Applicant: 武汉理工大学
IPC: G06V40/20 , G06V20/40 , G06V10/774
Abstract: 本发明涉及计算机视觉技术领域,并提出了一种基于背景弱化及一致性计算的半监督动作检测方法,包括以下步骤:S1、获得训练样本;S2、使用标记数据集训练两个相同的动作检测模型a和b;S3、使用训练样本和训练样本的翻转视图输出的一致性来指导模型a和模型b的训练;S4、增加背景抑制模块用于模型a;S5、使用背景抑制后训练样本和训练样本的翻转视图输出的一致性来指导模型a的训练;S6、根据模型a和b输出的置信度和一致性,判断模型a输出是否存在错误的初始预测使得真实动作像素被覆盖,并对错误抑制进行校正约束;S7、重复步骤S2‑S6,直至模型a被充分训练;步骤S8、在模型训练过程中,通过生成伪标签的方式扩充训练样本。
-
公开(公告)号:CN110555406B
公开(公告)日:2023-03-24
申请号:CN201910820113.9
申请日:2019-08-31
Applicant: 武汉理工大学
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于Haar‑like特征及CNN匹配的视频运动目标识别方法,包括以下步骤:1)对视频目标图像进行Haar‑like特征提取;2)对视频利用滑动窗口,在加速度特征中提取FFT系数;3)将步骤1)和步骤2)生成的特征进行特征融合;4)利用分类器根据融合特征对视频进行目标识别,得到初步识别结果;5)将识别结果作为输入,利用CNN提取特征;6)将提取到的CNN特征转换为紧凑的二进制编码;7)对给定视频,直接提取CNN特征并转换为紧凑的二进制编码;8)将步骤6)中得到的二进制编码和步骤7)得到的二进制编码利用汉明距离进行比较,输出汉明距离较小的视频图像。本发明方法可以同时关注全局信息以及余部信息,提高视频目标的识别准确率。
-
公开(公告)号:CN118570711B
公开(公告)日:2024-11-08
申请号:CN202411059390.X
申请日:2024-08-03
Applicant: 武汉理工大学
IPC: G06V20/40 , G06V10/762 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/09
Abstract: 本发明提出了一种基于信任风险分配令牌的识别方法、系统及电子设备,属于视频识别领域,方法包括:S1、获取无人机视角的视频序列,将所述视频序列输入至Vision Transformer主干网络中,利用3D卷积对视频序列进行时空特征提取,得到中间特征和中间特征的类别分数;S2、使用快速傅里叶变换进行频域信息分析,得到动态显著性水平分数;S3、根据动态显著性水平分数将中间特征中的令牌分为主动令牌和被动令牌;S4、计算每个被动令牌的预测不确定性分数;S5、预测不确定性分数对被动令牌进行排序和筛选;S6、对主动令牌和优化后的被动令牌进行特征提取,得到视频序列中的行为。
-
公开(公告)号:CN118172829A
公开(公告)日:2024-06-11
申请号:CN202410262500.6
申请日:2024-03-07
Applicant: 武汉理工大学
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于动作感知的视频描述方法及系统,属于视频描述技术领域,所述方法包括:分别提取每个待描述视频的原始视觉特征;将原始视觉特征输入动作识别预测器,得到高级动作语义特征;将原始视觉特征与动作语义信息进行特征融合,得到动作融合视觉特征;将动作融合视觉特征输入长度预测器,并通过非自回归解码器生成视频描述文本;将动作融合视觉特征输入视觉词解码器,生成视觉词,并将视觉词映射成待描述视频的语言骨架标签;构建多尺度语义骨架损失函数,对视频描述文本进行语言骨架级优化。本发明的方法具备动作感知能力,减少视频中低级错误动作信息的影响,从语言骨架级对描述文本进行优化,从而提升生成的视频描述的精细度。
-
-
-
-
-
-
-
-
-