Patent search ap:("北京工业大学") AND inv:"宋琳" Page 1

1.

发明公开
一种基于特征解耦的跨模态视频片段检索方法审中-实审

公开(公告)号：CN114612748A

公开(公告)日：2022-06-10

申请号：CN202210296716.5

申请日：2022-03-24

Applicant: 北京工业大学

Inventor： 杨金福 , 刘玉斌 , 闫雪 , 宋琳

IPC: G06V10/774 , G06V10/82 , G06K9/62 , G06F17/16 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于特征解耦的跨模态视频片段检索方法，涉及跨模态视频片段检索领域，包括以下步骤：首先，使用三维卷积神经网络C3D模型提取视频特征，利用LSTM网络提取查询文本的特征；然后，使用视频特征构建相邻特征矩阵，并通过编码器解耦为内容特征矩阵和位置特征矩阵；其次，增强视频内容特征的表达，并对不同的位置特征进行加权，从而降低训练集的长尾分布效应对模型的影响；接着，重构相邻特征矩阵，以学习视频的上下文信息；最后，将重构的相邻特征矩阵与文本特征进行融合，输入全卷积神经网络生成检索结果。模型使用二进制交叉熵焦点损失(Binary Cross Entropy Focal‑loss)作为检索的损失函数，通过反向传播算法完成训练。

2.

发明授权
一种基于特征解耦的跨模态视频片段检索方法有权

公开(公告)号：CN114612748B

公开(公告)日：2024-06-07

申请号：CN202210296716.5

申请日：2022-03-24

Applicant: 北京工业大学

Inventor： 杨金福 , 刘玉斌 , 闫雪 , 宋琳

IPC: G06V10/774 , G06V10/82 , G06F17/16 , G06N3/0464 , G06N3/084

Abstract: 本发明公开了一种基于特征解耦的跨模态视频片段检索方法，涉及跨模态视频片段检索领域，包括以下步骤：首先，使用三维卷积神经网络C3D模型提取视频特征，利用LSTM网络提取查询文本的特征；然后，使用视频特征构建相邻特征矩阵，并通过编码器解耦为内容特征矩阵和位置特征矩阵；其次，增强视频内容特征的表达，并对不同的位置特征进行加权，从而降低训练集的长尾分布效应对模型的影响；接着，重构相邻特征矩阵，以学习视频的上下文信息；最后，将重构的相邻特征矩阵与文本特征进行融合，输入全卷积神经网络生成检索结果。模型使用二进制交叉熵焦点损失(Binary Cross Entropy Focal‑loss)作为检索的损失函数，通过反向传播算法完成训练。

Patent Agency Ranking