-
公开(公告)号:CN114741556B
公开(公告)日:2024-11-29
申请号:CN202210196211.1
申请日:2022-03-01
Applicant: 东北大学
IPC: G06F16/75 , G06F16/78 , G06F16/783 , G06V10/762 , G06V10/764 , G06V10/80 , G06V20/40
Abstract: 本发明提供一种基于场景片段和多模态特征增强的短视频分类方法,涉及短视频分类技术领域;抓取短视频平台的短视频及其附加信息,对短视频数据进行标注以构建一个短视频数据集;将视频按照场景分割成多个场景片段,并提取出每个场景片段中的多模态信息,包括关键帧、音频和字幕;利用预训练的深度学习模型提取出各个模态特征;动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征,并利用前者来增强后者语义,通过与原始特征连接获得视频粒度上增强后的模态特征;将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态中的特有性特征与主导模态连接,得到短视频分类结果。
-
公开(公告)号:CN114741556A
公开(公告)日:2022-07-12
申请号:CN202210196211.1
申请日:2022-03-01
Applicant: 东北大学
IPC: G06F16/75 , G06F16/78 , G06F16/783 , G06V10/762 , G06V10/764 , G06V10/80 , G06K9/62 , G06V20/40
Abstract: 本发明提供一种基于场景片段和多模态特征增强的短视频分类方法,涉及短视频分类技术领域;抓取短视频平台的短视频及其附加信息,对短视频数据进行标注以构建一个短视频数据集;将视频按照场景分割成多个场景片段,并提取出每个场景片段中的多模态信息,包括关键帧、音频和字幕;利用预训练的深度学习模型提取出各个模态特征;动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征,并利用前者来增强后者语义,通过与原始特征连接获得视频粒度上增强后的模态特征;将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态中的特有性特征与主导模态连接,得到短视频分类结果。
-