一种基于CLIP模型图文双支共享机制的动作识别方法
Abstract:
本发明涉及一种基于CLIP模型图文双支共享机制的动作识别方法,包括:获取待识别视频并分为多帧RGB图;将多帧RGB图输入至动作识别模型,得到待识别视频中主体的动作类别;其中,动作识别模型中的视觉‑文本信息共享模块用于形成共享token;时空增强模块用于重塑图像特征序列以及更新共享token;图像特征提取部分用于结合视觉‑文本信息共享模块和时空增强模块提取多帧RGB图的视觉特征;文本特征提取部分用于结合视觉‑文本信息共享模块从类别文本中提取文本特征;相似度计算模块,用于计算文本特征和视觉特征的相似度,将相似度最大的类别作为待识别视频中主体的动作类别。本发明能达到准确、高效的行为识别性能。
Patent Agency Ranking
0/0