-
公开(公告)号:CN115329127A
公开(公告)日:2022-11-11
申请号:CN202210867181.2
申请日:2022-07-22
Applicant: 华中科技大学
IPC: G06F16/735 , G06F16/75 , G06F16/783 , G06F16/65 , G06K9/62 , G06N3/04 , G06N3/08 , G06V10/44 , G06V10/764
Abstract: 本发明公开了一种融合情感信息的多模态短视频标签推荐方法,属于视频处理技术领域,包括:构建短视频样本集;将短视频样本输入基于多头注意力机制和自编码器的初始多模态标签推荐模型,以使其对短视频样本的图像、音频、文本进行特征提取得到内容特征和情感特征,并利用注意力网络进行融合得到多个候选视频标签;以期望视频标签为目标,以候选视频标签与期望视频标签的文字特征区别为损失,训练初始多模态标签推荐模型得到目标多模态标签推荐模型;将当前短视频输入目标多模态标签推荐模型以使其生成目标视频标签。本发明通过融合图像特征、音频特征以及文本特征,能够充分利用视频相关的多模态信息,有效提高所生成的视频标签的质量。