-
公开(公告)号:CN117373133A
公开(公告)日:2024-01-09
申请号:CN202311447158.9
申请日:2023-11-02
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/74 , G06V10/77 , G06V10/82 , G06N3/0464 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及一种基于CLIP模型图文双支共享机制的动作识别方法,包括:获取待识别视频并分为多帧RGB图;将多帧RGB图输入至动作识别模型,得到待识别视频中主体的动作类别;其中,动作识别模型中的视觉‑文本信息共享模块用于形成共享token;时空增强模块用于重塑图像特征序列以及更新共享token;图像特征提取部分用于结合视觉‑文本信息共享模块和时空增强模块提取多帧RGB图的视觉特征;文本特征提取部分用于结合视觉‑文本信息共享模块从类别文本中提取文本特征;相似度计算模块,用于计算文本特征和视觉特征的相似度,将相似度最大的类别作为待识别视频中主体的动作类别。本发明能达到准确、高效的行为识别性能。