-
公开(公告)号:CN114612748A
公开(公告)日:2022-06-10
申请号:CN202210296716.5
申请日:2022-03-24
Applicant: 北京工业大学
Abstract: 本发明公开了一种基于特征解耦的跨模态视频片段检索方法,涉及跨模态视频片段检索领域,包括以下步骤:首先,使用三维卷积神经网络C3D模型提取视频特征,利用LSTM网络提取查询文本的特征;然后,使用视频特征构建相邻特征矩阵,并通过编码器解耦为内容特征矩阵和位置特征矩阵;其次,增强视频内容特征的表达,并对不同的位置特征进行加权,从而降低训练集的长尾分布效应对模型的影响;接着,重构相邻特征矩阵,以学习视频的上下文信息;最后,将重构的相邻特征矩阵与文本特征进行融合,输入全卷积神经网络生成检索结果。模型使用二进制交叉熵焦点损失(Binary Cross Entropy Focal‑loss)作为检索的损失函数,通过反向传播算法完成训练。
-
公开(公告)号:CN114612748B
公开(公告)日:2024-06-07
申请号:CN202210296716.5
申请日:2022-03-24
Applicant: 北京工业大学
IPC: G06V10/774 , G06V10/82 , G06F17/16 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于特征解耦的跨模态视频片段检索方法,涉及跨模态视频片段检索领域,包括以下步骤:首先,使用三维卷积神经网络C3D模型提取视频特征,利用LSTM网络提取查询文本的特征;然后,使用视频特征构建相邻特征矩阵,并通过编码器解耦为内容特征矩阵和位置特征矩阵;其次,增强视频内容特征的表达,并对不同的位置特征进行加权,从而降低训练集的长尾分布效应对模型的影响;接着,重构相邻特征矩阵,以学习视频的上下文信息;最后,将重构的相邻特征矩阵与文本特征进行融合,输入全卷积神经网络生成检索结果。模型使用二进制交叉熵焦点损失(Binary Cross Entropy Focal‑loss)作为检索的损失函数,通过反向传播算法完成训练。
-