Invention Publication
- Patent Title: 一种基于CLIP模型图文双支共享机制的动作识别方法
-
Application No.: CN202311447158.9Application Date: 2023-11-02
-
Publication No.: CN117373133APublication Date: 2024-01-09
- Inventor: 陈利利 , 余绍祺 , 张晓林 , 李嘉茂
- Applicant: 中国科学院上海微系统与信息技术研究所
- Applicant Address: 上海市长宁区长宁路865号
- Assignee: 中国科学院上海微系统与信息技术研究所
- Current Assignee: 中国科学院上海微系统与信息技术研究所
- Current Assignee Address: 上海市长宁区长宁路865号
- Agency: 上海泰博知识产权代理有限公司
- Agent 钱文斌
- Main IPC: G06V40/20
- IPC: G06V40/20 ; G06V20/40 ; G06V10/44 ; G06V10/74 ; G06V10/77 ; G06V10/82 ; G06N3/0464 ; G06N3/0499 ; G06N3/08

Abstract:
本发明涉及一种基于CLIP模型图文双支共享机制的动作识别方法,包括:获取待识别视频并分为多帧RGB图;将多帧RGB图输入至动作识别模型,得到待识别视频中主体的动作类别;其中,动作识别模型中的视觉‑文本信息共享模块用于形成共享token;时空增强模块用于重塑图像特征序列以及更新共享token;图像特征提取部分用于结合视觉‑文本信息共享模块和时空增强模块提取多帧RGB图的视觉特征;文本特征提取部分用于结合视觉‑文本信息共享模块从类别文本中提取文本特征;相似度计算模块,用于计算文本特征和视觉特征的相似度,将相似度最大的类别作为待识别视频中主体的动作类别。本发明能达到准确、高效的行为识别性能。
Information query