一种基于CLIP模型图文双支共享机制的动作识别方法

Invention Publication

CN117373133A 一种基于CLIP模型图文双支共享机制的动作识别方法审中-实审

Please log in to see more content

Patent Title: 一种基于CLIP模型图文双支共享机制的动作识别方法
Application No.: CN202311447158.9

Application Date: 2023-11-02
Publication No.: CN117373133A

Publication Date: 2024-01-09
Inventor: 陈利利 , 余绍祺 , 张晓林 , 李嘉茂
Applicant: 中国科学院上海微系统与信息技术研究所
Applicant Address: 上海市长宁区长宁路865号
Assignee: 中国科学院上海微系统与信息技术研究所
Current Assignee: 中国科学院上海微系统与信息技术研究所
Current Assignee Address: 上海市长宁区长宁路865号
Agency: 上海泰博知识产权代理有限公司
Agent 钱文斌
Main IPC: G06V40/20
IPC: G06V40/20 ; G06V20/40 ; G06V10/44 ; G06V10/74 ; G06V10/77 ; G06V10/82 ; G06N3/0464 ; G06N3/0499 ; G06N3/08

Abstract:

本发明涉及一种基于CLIP模型图文双支共享机制的动作识别方法，包括：获取待识别视频并分为多帧RGB图；将多帧RGB图输入至动作识别模型，得到待识别视频中主体的动作类别；其中，动作识别模型中的视觉‑文本信息共享模块用于形成共享token；时空增强模块用于重塑图像特征序列以及更新共享token；图像特征提取部分用于结合视觉‑文本信息共享模块和时空增强模块提取多帧RGB图的视觉特征；文本特征提取部分用于结合视觉‑文本信息共享模块从类别文本中提取文本特征；相似度计算模块，用于计算文本特征和视觉特征的相似度，将相似度最大的类别作为待识别视频中主体的动作类别。本发明能达到准确、高效的行为识别性能。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V40/00	识别图像或视频数据中的生物特征、人类相关或动物相关模式
G06V40/20	.动作或行为，例如手势识别（面部表情识别 G06V40/16）