Patent search ap:("中山大学") AND inv:"黎金宇" Page 1

1.

发明授权
一种基于深度学习的视频时刻检索方法与系统有权

公开(公告)号：CN114896450B

公开(公告)日：2024-05-10

申请号：CN202210393679.X

申请日：2022-04-15

Applicant: 中山大学

Inventor： 周凡 , 黎金宇 , 林格 , 林淑金

IPC: G06F16/732 , G06F16/78 , G06F40/216 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/0455 , G06N3/08

Abstract: 本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括：从Charades‑STA数据集筛选并输入视频片段和查询文本；提取视频特征和文本特征；利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征；利用Transformer将获取的各组特征分别进行对齐；修正全局的视频‑文本语义表示；将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络，回归目标视频片段的精确位置。本发明基于深度学习的方法，设计了一个多层次视频‑文本语义对齐网络，通过多头注意力机制、Transformer等结构，分别提取视频和文本的局部和全局特征，之后再利用局部特征来修正全局特征，并对视频和文本的局部、全局特征很好地进行了对齐，能够很好地提高视频时刻检索的精度。

2.

发明公开
一种基于深度学习的视频时刻检索方法与系统有权

公开(公告)号：CN114896450A

公开(公告)日：2022-08-12

申请号：CN202210393679.X

申请日：2022-04-15

Applicant: 中山大学

Inventor： 周凡 , 黎金宇 , 林格 , 林淑金

IPC: G06F16/732 , G06F16/78 , G06F40/216 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括：从Charades‑STA数据集筛选并输入视频片段和查询文本；提取视频特征和文本特征；利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征；利用Transformer将获取的各组特征分别进行对齐；修正全局的视频‑文本语义表示；将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络，回归目标视频片段的精确位置。本发明基于深度学习的方法，设计了一个多层次视频‑文本语义对齐网络，通过多头注意力机制、Transformer等结构，分别提取视频和文本的局部和全局特征，之后再利用局部特征来修正全局特征，并对视频和文本的局部、全局特征很好地进行了对齐，能够很好地提高视频时刻检索的精度。

Patent Agency Ranking