-
公开(公告)号:CN116883902B
公开(公告)日:2025-04-08
申请号:CN202310872523.4
申请日:2023-07-14
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06V10/778 , G06N3/0464
Abstract: 本发明公开了基于多尺度时空特征蒸馏的动作识别方法。本发明方法首先对给定原始视频采样获得帧图像序列和光流图像序列,利用卷积神经网络得到时空编码特征;然后通过不同尺寸的卷积操作捕获不同尺度的局部特征,获得多尺度空间特征;同时,利用自注意力机制构建时序编码特征的长时依赖关系,获得长时时序特征;再融合多尺度空间特征与长时时序特征获得多尺度时空特征,进行动作分类;最后通过将多尺度空间特征进行掩膜蒸馏,实现教师模型中任务相关知识向学生模型的迁移。本发明方法不仅能够对视频的时空编码特征进行增强和融合获得多尺度时空特征,还能利用掩膜特征蒸馏实现模型的轻量化,提升了动作识别的准确率并有利于终端部署。
-
公开(公告)号:CN119829789A
公开(公告)日:2025-04-15
申请号:CN202510300773.X
申请日:2025-03-14
Applicant: 杭州电子科技大学
IPC: G06F16/583 , G06F16/535 , G06F16/538 , G06V10/80 , G06V10/82 , G06N3/0499 , G06N3/084
Abstract: 本发明提供了一种训练组合图像检索模型的方法、组合图像检索方法及装置,包含训练阶段和检索阶段。通过构建 三元组数据集,利用图像差异描述模型扩增样本数据集,相较于人工标注,降低了标注成本,提高了效率;通过解耦和融合参考图像与修改文本特征得到图文组合特征,并通过与目标图像特征计算相似度来更新参数,从而在更细的粒度上实现图文组合,获得更加准确的图文组合特征,更好地反映出理想目标图像的特征。与现有方法相比,本发明提升了组合图像检索的召回率,降低了数据标注成本,能更好地满足交互式场景下的图像检索需求,优化用户体验。
-
公开(公告)号:CN116883902A
公开(公告)日:2023-10-13
申请号:CN202310872523.4
申请日:2023-07-14
Applicant: 杭州电子科技大学
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06V10/778 , G06N3/0464
Abstract: 本发明公开了基于多尺度时空特征蒸馏的动作识别方法。本发明方法首先对给定原始视频采样获得帧图像序列和光流图像序列,利用卷积神经网络得到时空编码特征;然后通过不同尺寸的卷积操作捕获不同尺度的局部特征,获得多尺度空间特征;同时,利用自注意力机制构建时序编码特征的长时依赖关系,获得长时时序特征;再融合多尺度空间特征与长时时序特征获得多尺度时空特征,进行动作分类;最后通过将多尺度空间特征进行掩膜蒸馏,实现教师模型中任务相关知识向学生模型的迁移。本发明方法不仅能够对视频的时空编码特征进行增强和融合获得多尺度时空特征,还能利用掩膜特征蒸馏实现模型的轻量化,提升了动作识别的准确率并有利于终端部署。
-
-