-
公开(公告)号:CN120032424A
公开(公告)日:2025-05-23
申请号:CN202510074667.4
申请日:2025-01-17
Applicant: 南京大学
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/72 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/096 , G06N3/0985
Abstract: 本发明公开一种面向多模态视频的全流程动作识别方法,首先,通过优化面向多模态数据的增强技术来转换和扩展现有数据,以扩大训练规模。使用更多的RGB数据集对骨干网络进行预训练,并通过迁移学习使其更好地适应新任务。其次,借助2D CNNs提取多模态空间特征,并与时间位移模块结合,实现与3D CNNs相当的多模态空间‑时间特征提取,同时提高计算效率。使用预测增强方法,以整合不同训练阶段的同一架构和不同架构模型的知识,从而从不同角度预测动作并充分利用目标信息。本发明既能克服数据稀缺和过拟合问题,又能提高时空建模能力,并有效融合多模态信息。