-
公开(公告)号:CN117058594A
公开(公告)日:2023-11-14
申请号:CN202311132856.X
申请日:2023-09-04
Applicant: 西南交通大学
IPC: G06V20/40 , G06V10/764 , G06V10/80 , G06V10/82
Abstract: 本发明涉及一种基于动态融合门机制的多模态视频分类方法,属于视频分类技术领域。为了克服现有技术中存在的缺陷,本发明旨在提供一种基于动态融合门机制的多模态视频分类方法,包括通过单模态特征提取模块抽取目标视频的多级视觉特征、多级文本特征;基于视频帧的多级视觉特征、视频字幕的多级文本特征,采用动态融合门模块获取以视觉为主体的多模态融合特征和以文本为主体的多模态融合特征;基于以视觉为主体的多模态融合特征和以文本为主体的多模态融合特征,采用视频分类模块进行视频分类。本发明通过动态融合门机制让模型自己去学习更适合自身的单模态特征使用数量和多模态融合位置,从而加速视频分类模型的训练效率、提升模型分类效果。
-
公开(公告)号:CN119380089A
公开(公告)日:2025-01-28
申请号:CN202411461813.0
申请日:2024-10-18
Applicant: 西南交通大学
IPC: G06V10/764 , G06V10/762
Abstract: 本发明提供一种偏多标记学习方法,包括:构建示例矩阵与包含候选标记的标记矩阵;基于所述示例和所述标记相关性假设,构造第一目标函数;基于类属属性和所述示例相关性假设,构造第二目标函数;将所述第一目标函数与第二目标函数相加获得最终的目标函数,并得到所述目标函数的优化问题;再利用交替最小化算法,求得与示例及标记相关的矩阵的优化问题的最优解;根据该最优解,获得新示例的标记向量,通过上述方法可以筛除候选标记中的噪声标记,提高偏多标记学习方法的预测性能。
-