-
公开(公告)号:CN118918521A
公开(公告)日:2024-11-08
申请号:CN202411413830.7
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
Abstract: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN118897905A
公开(公告)日:2024-11-05
申请号:CN202411388560.9
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 哈尔滨工业大学(威海)
IPC: G06F16/735 , G06F16/783 , G06F16/738 , G06N3/0455 , G06N3/08
Abstract: 本发明属于视频检索技术领域,提供了一种基于细粒度时空关联建模的视频片段定位方法及系统,其技术方案为:获取视频片段,利用时空查询表示,隐式挖掘视频片段中潜在所有物体信息;随后,基于时空表示多维交互模块,充分建模物体间时空关联关系;之后,通过有机融合局部和全局表示,全面提升视频片段的表示能力;最后,依据视频片段表示与用户查询表示相似性分数确定目标视频片段。本发明克服了现有技术中依赖离线物体检测工具进行物体时空信息提取、物体细粒度交互信息建模不充分等导致视频理解不佳的问题。
-
公开(公告)号:CN118897904B
公开(公告)日:2025-04-18
申请号:CN202411388060.5
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC: G06F16/732 , G06F16/75 , G06F40/30
Abstract: 本发明属于自然语言处理领域,提供了一种查询语句语义树生成编码方法及系统,获取给定的查询语句,根据查询语句的完备性,对其进行分类;对于其中的不完备的查询语句,利用过程补全大语言模型进行基于思维链引导的查询过程的补全;基于完备的查询语句或补全后的查询语句,通过成分分析树提取相邻词语之间的深入语义关联,通过依存语法树提取非相邻词语的长距离关联,融合依存语法树和成分分析树,形成最终的语义树。本发明对查询语句进行完备性分类,随后利用大型语言模型自动推断和完善查询语句,从而生成能够准确反映动作中间过程的语义树,实现关键语义内容的补充,可以支持在开放场景视频中进行精准的动作检索和定位。
-
公开(公告)号:CN118897905B
公开(公告)日:2025-01-21
申请号:CN202411388560.9
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 哈尔滨工业大学(威海)
IPC: G06F16/735 , G06F16/783 , G06F16/738 , G06N3/0455 , G06N3/08
Abstract: 本发明属于视频检索技术领域,提供了一种基于细粒度时空关联建模的视频片段定位方法及系统,其技术方案为:获取视频片段,利用时空查询表示,隐式挖掘视频片段中潜在所有物体信息;随后,基于时空表示多维交互模块,充分建模物体间时空关联关系;之后,通过有机融合局部和全局表示,全面提升视频片段的表示能力;最后,依据视频片段表示与用户查询表示相似性分数确定目标视频片段。本发明克服了现有技术中依赖离线物体检测工具进行物体时空信息提取、物体细粒度交互信息建模不充分等导致视频理解不佳的问题。
-
公开(公告)号:CN118918521B
公开(公告)日:2024-12-17
申请号:CN202411413830.7
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
Abstract: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN118916518B
公开(公告)日:2024-12-17
申请号:CN202411411688.2
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 哈尔滨工业大学(威海)
IPC: G06F16/738 , G06F16/735 , G06N5/022 , G06F16/783
Abstract: 本发明属于数据处理技术领域。提供了一种基于知识增强的视频片段摘要生成方法及系统,抽取视频片段的多个视频帧的信息,得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合,进一步的得到以物体间常识关系为边的第一常识图、以物体间场景关系为边的第二常识图、以物体间时空关系为边的第三常识图;将第一常识图、第二常识图和第三常识图整合后采用图注意力网络,得到所有物体的表征,将所有物体的表征与向量表征集合拼接成为视频表征,以所述视频表征与提示词文本作为大语言模型的输入,得到视频片段的摘要文本描述;本发明通过融合常识知识、场景知识和时空知识,提升了视频摘要生成的准确性和全面性。
-
公开(公告)号:CN118916518A
公开(公告)日:2024-11-08
申请号:CN202411411688.2
申请日:2024-10-11
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 哈尔滨工业大学(威海)
IPC: G06F16/738 , G06F16/735 , G06N5/022 , G06F16/783
Abstract: 本发明属于数据处理技术领域。提供了一种基于知识增强的视频片段摘要生成方法及系统,抽取视频片段的多个视频帧的信息,得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合,进一步的得到以物体间常识关系为边的第一常识图、以物体间场景关系为边的第二常识图、以物体间时空关系为边的第三常识图;将第一常识图、第二常识图和第三常识图整合后采用图注意力网络,得到所有物体的表征,将所有物体的表征与向量表征集合拼接成为视频表征,以所述视频表征与提示词文本作为大语言模型的输入,得到视频片段的摘要文本描述;本发明通过融合常识知识、场景知识和时空知识,提升了视频摘要生成的准确性和全面性。
-
公开(公告)号:CN118897904A
公开(公告)日:2024-11-05
申请号:CN202411388060.5
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC: G06F16/732 , G06F16/75 , G06F40/30
Abstract: 本发明属于自然语言处理领域,提供了一种查询语句语义树生成编码方法及系统,获取给定的查询语句,根据查询语句的完备性,对其进行分类;对于其中的不完备的查询语句,利用过程补全大语言模型进行基于思维链引导的查询过程的补全;基于完备的查询语句或补全后的查询语句,通过成分分析树提取相邻词语之间的深入语义关联,通过依存语法树提取非相邻词语的长距离关联,融合依存语法树和成分分析树,形成最终的语义树。本发明对查询语句进行完备性分类,随后利用大型语言模型自动推断和完善查询语句,从而生成能够准确反映动作中间过程的语义树,实现关键语义内容的补充,可以支持在开放场景视频中进行精准的动作检索和定位。
-
公开(公告)号:CN118942017B
公开(公告)日:2024-12-31
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118898797B
公开(公告)日:2024-12-27
申请号:CN202411404288.9
申请日:2024-10-10
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06V20/40 , G06V10/774 , G06V10/24 , G06V10/80
Abstract: 本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统,获取查询语句和待检索视频的语义特征表示;通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互,融合多模态信息;预测每个视频单元被保留的概率,并依据概率保留高信息有效性的视频单元;通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间;通过插入适配层对图文预训练大模型进行微调,并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解,同时兼顾了视频行为片段候选集的生成速度和精度。
-
-
-
-
-
-
-
-
-