-
公开(公告)号:CN119920000A
公开(公告)日:2025-05-02
申请号:CN202411961209.4
申请日:2024-12-30
Applicant: 中国科学院上海微系统与信息技术研究所
IPC: G06V40/20 , G06V20/70 , G06F40/284 , G06F40/126 , G06V10/40 , G06V10/62 , G06V10/80 , G06V10/82 , G06V10/764 , G06F18/22 , G06N3/045 , G06N3/0475 , G06N3/0464
Abstract: 本发明涉及一种双向域弥合的行为识别方法,包括:获取待识别RGB图像帧序列及其类别文本;将所述待识别RGB图像帧序列输入文本提示生成模块得到生成式文本;将所述待识别RGB图像帧序列及其类别文本和所述生成式文本输入行为识别模型,得到所述待识别视频的动作类别,所述行为识别模型包括:第一文本编码器模块、图像编码器模块、时序编码器模块、第二文本编码器模块、交互模块、融合模块和相似度计算模块。本发明能够有效缩小预训练模型与行为识别任务之间的域差距,从而显著提升CLIP模型在行为识别领域的适用性和性能。