一种基于特征解耦的跨模态视频片段检索方法

    公开(公告)号:CN114612748A

    公开(公告)日:2022-06-10

    申请号:CN202210296716.5

    申请日:2022-03-24

    Abstract: 本发明公开了一种基于特征解耦的跨模态视频片段检索方法,涉及跨模态视频片段检索领域,包括以下步骤:首先,使用三维卷积神经网络C3D模型提取视频特征,利用LSTM网络提取查询文本的特征;然后,使用视频特征构建相邻特征矩阵,并通过编码器解耦为内容特征矩阵和位置特征矩阵;其次,增强视频内容特征的表达,并对不同的位置特征进行加权,从而降低训练集的长尾分布效应对模型的影响;接着,重构相邻特征矩阵,以学习视频的上下文信息;最后,将重构的相邻特征矩阵与文本特征进行融合,输入全卷积神经网络生成检索结果。模型使用二进制交叉熵焦点损失(Binary Cross Entropy Focal‑loss)作为检索的损失函数,通过反向传播算法完成训练。

    一种基于特征解耦的跨模态视频片段检索方法

    公开(公告)号:CN114612748B

    公开(公告)日:2024-06-07

    申请号:CN202210296716.5

    申请日:2022-03-24

    Abstract: 本发明公开了一种基于特征解耦的跨模态视频片段检索方法,涉及跨模态视频片段检索领域,包括以下步骤:首先,使用三维卷积神经网络C3D模型提取视频特征,利用LSTM网络提取查询文本的特征;然后,使用视频特征构建相邻特征矩阵,并通过编码器解耦为内容特征矩阵和位置特征矩阵;其次,增强视频内容特征的表达,并对不同的位置特征进行加权,从而降低训练集的长尾分布效应对模型的影响;接着,重构相邻特征矩阵,以学习视频的上下文信息;最后,将重构的相邻特征矩阵与文本特征进行融合,输入全卷积神经网络生成检索结果。模型使用二进制交叉熵焦点损失(Binary Cross Entropy Focal‑loss)作为检索的损失函数,通过反向传播算法完成训练。

Patent Agency Ranking