-
公开(公告)号:CN112380394B
公开(公告)日:2022-05-10
申请号:CN202011164289.2
申请日:2020-10-27
申请人: 浙江工商大学
IPC分类号: G06F16/783 , G06V20/40 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04
摘要: 本发明公开了一种面向文本到视频片段定位的渐进式定位方法,该方法包括:首先利用不同的特征提取方法分别提取视频和文本这两种模态的特征;接着渐近地选择不同的步长,多阶段地学习视频和文本之间的相关性;最后结合各个阶段的相关性损失,以端到端的方式训练模型。同时,通过条件特征更新模块和上采样连接让细时间粒度阶段融合粗时间粒度阶段的信息,使得不同阶段之间相互促进。不同阶段能关注不同时间粒度的片段,结合阶段之间的相互联系,使得模型能应对目标片段长度变化明显的情况。本发明借鉴人类在处理片段定位任务的思维方式,采用一种由粗到细的方式,多阶段、渐近地定位目标片段,在很大程度上提高了定位的性能。
-
公开(公告)号:CN114037945A
公开(公告)日:2022-02-11
申请号:CN202111506944.2
申请日:2021-12-10
申请人: 浙江工商大学
摘要: 本发明公开了一种基于多粒度特征交互的跨模态检索方法,用于实现视频和文本之间的相互检索任务。本发明使用全局视觉语义特征指导局部视觉语义特征来获取更加细粒度的局部信息,随后让全局视觉语义特征和经过增强的局部视觉语义特征进行相互学习融合得到视频级别的特征。将经过学习得到的视频级别特征与文本特征映射到同一个嵌入空间中,在嵌入空间中进行跨模态匹配,从而实现文本和视频之间的跨模态检索。本发明是一种基于神经网络的跨模态检索方法,在性能和复杂度上达到了较优平衡。
-
公开(公告)号:CN112380394A
公开(公告)日:2021-02-19
申请号:CN202011164289.2
申请日:2020-10-27
申请人: 浙江工商大学
IPC分类号: G06F16/783 , G06K9/00 , G06K9/62 , G06N3/04
摘要: 本发明公开了一种面向文本到视频片段定位的渐进式定位方法,该方法包括:首先利用不同的特征提取方法分别提取视频和文本这两种模态的特征;接着渐近地选择不同的步长,多阶段地学习视频和文本之间的相关性;最后结合各个阶段的相关性损失,以端到端的方式训练模型。同时,通过条件特征更新模块和上采样连接让细时间粒度阶段融合粗时间粒度阶段的信息,使得不同阶段之间相互促进。不同阶段能关注不同时间粒度的片段,结合阶段之间的相互联系,使得模型能应对目标片段长度变化明显的情况。本发明借鉴人类在处理片段定位任务的思维方式,采用一种由粗到细的方式,多阶段、渐近地定位目标片段,在很大程度上提高了定位的性能。
-
公开(公告)号:CN114037945B
公开(公告)日:2024-09-06
申请号:CN202111506944.2
申请日:2021-12-10
申请人: 浙江工商大学
IPC分类号: G06F16/78 , G06F16/783 , G06F16/732 , G06V20/40 , G06V10/82 , G06V10/80 , G06N3/0442 , G06N3/045
摘要: 本发明公开了一种基于多粒度特征交互的跨模态检索方法,用于实现视频和文本之间的相互检索任务。本发明使用全局视觉语义特征指导局部视觉语义特征来获取更加细粒度的局部信息,随后让全局视觉语义特征和经过增强的局部视觉语义特征进行相互学习融合得到视频级别的特征。将经过学习得到的视频级别特征与文本特征映射到同一个嵌入空间中,在嵌入空间中进行跨模态匹配,从而实现文本和视频之间的跨模态检索。本发明是一种基于神经网络的跨模态检索方法,在性能和复杂度上达到了较优平衡。
-
公开(公告)号:CN111897913A
公开(公告)日:2020-11-06
申请号:CN202010686024.2
申请日:2020-07-16
申请人: 浙江工商大学
IPC分类号: G06F16/33 , G06F16/783 , G06F40/30 , G06N3/04
摘要: 本发明公开了一种基于语义树增强的复杂文本查询到视频的跨模态检索方法。对于复杂文本查询语句,将其各个单词转换成叶子节点表示,挖掘子节点之间的关系,将两个依赖性最高的子节点进行合并,通过递归的方式构建查询语句的语义树结构,得到基于语义树增强的查询表示。对于候选视频的编码,通过CNN获得视频初步特征,利用GRU和自注意力机制模块捕获视频之间的时间依赖性和语义相关性,得到鲁棒的视频特征表示。将复杂文本查询表示和视频特征表示映射到公共空间中,自动学习两者的匹配关系,从而实现复杂文本查询到视频的跨模态检索。本发明方法不仅可以解释复杂文本查询语句中的信息成分,更好的理解用户意图,并且在很大程度上提高了检索的性能。
-
公开(公告)号:CN111897913B
公开(公告)日:2022-06-03
申请号:CN202010686024.2
申请日:2020-07-16
申请人: 浙江工商大学
IPC分类号: G06F16/33 , G06F16/783 , G06F40/30 , G06N3/04
摘要: 本发明公开了一种基于语义树增强的复杂文本查询到视频的跨模态检索方法。对于复杂文本查询语句,将其各个单词转换成叶子节点表示,挖掘子节点之间的关系,将两个依赖性最高的子节点进行合并,通过递归的方式构建查询语句的语义树结构,得到基于语义树增强的查询表示。对于候选视频的编码,通过CNN获得视频初步特征,利用GRU和自注意力机制模块捕获视频之间的时间依赖性和语义相关性,得到鲁棒的视频特征表示。将复杂文本查询表示和视频特征表示映射到公共空间中,自动学习两者的匹配关系,从而实现复杂文本查询到视频的跨模态检索。本发明方法不仅可以解释复杂文本查询语句中的信息成分,更好的理解用户意图,并且在很大程度上提高了检索的性能。
-
-
-
-
-