-
公开(公告)号:CN114896450B
公开(公告)日:2024-05-10
申请号:CN202210393679.X
申请日:2022-04-15
Applicant: 中山大学
IPC: G06F16/732 , G06F16/78 , G06F40/216 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades‑STA数据集筛选并输入视频片段和查询文本;提取视频特征和文本特征;利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征;利用Transformer将获取的各组特征分别进行对齐;修正全局的视频‑文本语义表示;将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络,回归目标视频片段的精确位置。本发明基于深度学习的方法,设计了一个多层次视频‑文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,能够很好地提高视频时刻检索的精度。
-
公开(公告)号:CN114896450A
公开(公告)日:2022-08-12
申请号:CN202210393679.X
申请日:2022-04-15
Applicant: 中山大学
IPC: G06F16/732 , G06F16/78 , G06F40/216 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades‑STA数据集筛选并输入视频片段和查询文本;提取视频特征和文本特征;利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征;利用Transformer将获取的各组特征分别进行对齐;修正全局的视频‑文本语义表示;将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络,回归目标视频片段的精确位置。本发明基于深度学习的方法,设计了一个多层次视频‑文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,能够很好地提高视频时刻检索的精度。
-