-
公开(公告)号:CN118918521A
公开(公告)日:2024-11-08
申请号:CN202411413830.7
申请日:2024-10-11
申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC分类号: G06V20/40 , G06V10/75 , G06V10/80 , G06V10/46 , G06V10/82 , G06V10/74 , G06N3/0464 , G06N3/042
摘要: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN118897904A
公开(公告)日:2024-11-05
申请号:CN202411388060.5
申请日:2024-10-08
申请人: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC分类号: G06F16/732 , G06F16/75 , G06F40/30
摘要: 本发明属于自然语言处理领域,提供了一种查询语句语义树生成编码方法及系统,获取给定的查询语句,根据查询语句的完备性,对其进行分类;对于其中的不完备的查询语句,利用过程补全大语言模型进行基于思维链引导的查询过程的补全;基于完备的查询语句或补全后的查询语句,通过成分分析树提取相邻词语之间的深入语义关联,通过依存语法树提取非相邻词语的长距离关联,融合依存语法树和成分分析树,形成最终的语义树。本发明对查询语句进行完备性分类,随后利用大型语言模型自动推断和完善查询语句,从而生成能够准确反映动作中间过程的语义树,实现关键语义内容的补充,可以支持在开放场景视频中进行精准的动作检索和定位。
-
公开(公告)号:CN118942017A
公开(公告)日:2024-11-12
申请号:CN202411418791.X
申请日:2024-10-12
IPC分类号: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
摘要: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118939682A
公开(公告)日:2024-11-12
申请号:CN202411425826.2
申请日:2024-10-14
IPC分类号: G06F16/2452 , G06F16/242 , G06N5/022
摘要: 本发明提供了一种基于知识引导的层级查询语句意图理解方法及系统,涉及自然语言处理技术领域,所述方法包括,获取查询语句,将查询语句转换为不同层级的语义嵌入向量;将外部知识图谱转化为知识嵌入矩阵,检索知识嵌入矩阵中与各层级的语义嵌入向量最相关的知识嵌入向量,将检索到的知识嵌入向量与对应的语义嵌入向量融合,得到各层级融合后的语义嵌入向量;根据各层级融合后的语义嵌入向量获取权重矩阵,计算权重重分配后的语义嵌入向量;基于注意力机制融合权重重分配后的语义嵌入向量与文本嵌入向量,得到查询语句的精确表征,确定查询语句的意图。本发明能够提高查询语句的理解与表征精准度。
-
公开(公告)号:CN118918516A
公开(公告)日:2024-11-08
申请号:CN202411396801.4
申请日:2024-10-09
申请人: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
摘要: 本发明属于目标视频片段定位技术领域,提供了一种基于语义对齐的目标视频片段定位方法、系统及产品,其技术方案为基于不同层次上的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数;根据全局对齐损失函数和局部语义对齐损失函数,对齐视频和文本两种模态的语义特征;推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;根据视频和文本两种模态完整的语义特征替换输入的视觉与文本特征,对目标视频片段定位。本发明能进行有效的跨模态语义对齐建模,从而克服了多模态信息缺失与语义信息模糊的问题,实现目标视频片段的准确检索。
-
公开(公告)号:CN118898255A
公开(公告)日:2024-11-05
申请号:CN202411388055.4
申请日:2024-10-08
申请人: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
IPC分类号: G06F40/30 , G06F40/284 , G06F40/226 , G06N3/042 , G06N3/0464 , G06N3/08 , G06V20/40 , G06V10/80
摘要: 本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
-
公开(公告)号:CN118918350A
公开(公告)日:2024-11-08
申请号:CN202411402391.X
申请日:2024-10-09
申请人: 浙江大华技术股份有限公司
IPC分类号: G06V10/762 , G06V10/74 , G06V10/40 , G06V10/80 , G06V10/25
摘要: 本申请公开了一种图像聚类方法、设备及存储介质,该图像聚类方法包括:将图像帧对应的嵌入表达作为节点,根据各个节点之间的相似度在节点之间创建边,并按照图像帧时间顺序排序每个节点得到时间交互图;获取在预设时刻下第一节点对应的历史交互节点,历史交互节点是指时间交互图中图像帧时间在预设时刻之前且与第一节点存在边的节点;基于第一节点对应的历史交互节点,计算第一节点和第二节点属于同一聚类簇的概率。由于在时间交互图中在历史时间段内节点之间的交互影响了在后续时间段内节点之间的交互,且该影响会随着时间的推移而衰减,因此,根据历史交互节点捕获节点间的动态变化信息以挖掘时序信息,提高聚类的准确性和稳定性。
-
公开(公告)号:CN118135264A
公开(公告)日:2024-06-04
申请号:CN202410022602.0
申请日:2024-01-05
申请人: 浙江大华技术股份有限公司
IPC分类号: G06V10/762 , G06V10/74
摘要: 本申请公开了一种图像标注方法、终端设备以及存储介质,该图像标注方法包括:对若干待标注图像进行聚类,得到多个聚类集合;从多个聚类集合中确定与基础图像集合对应的目标聚类集合;获取基础图像集合对应的第一特征组件和第一时空信息;结合第一特征组件和第一时空信息,将基础图像集合和目标聚类集合同屏展示,以供标注人员对目标聚类集合中当前展示的待标注图像进行标注。本申请的图像标注方法通过在标注展示界面中增加标注信息要素,使得标注人员更快地对待标注图像进行准确标注。
-
公开(公告)号:CN118072072A
公开(公告)日:2024-05-24
申请号:CN202311843109.7
申请日:2023-12-27
申请人: 浙江大华技术股份有限公司
IPC分类号: G06V10/764 , G06V10/62 , G06V10/22 , G06T7/246 , G06N20/00
摘要: 本申请公开了一种多目标跟踪方法及电子设备、存储介质,该方法包括:获取当前图像帧,以及获取若干跟踪目标在参考图像帧中的位置信息,参考图像帧位于当前图像帧之前;将当前图像帧的图像特征和各跟踪目标在参考图像帧中的位置信息输入二阶段检测器的分类网络,以得到分类网络输出的分类结果,分类结果包括各跟踪目标的预测位置信息;分别将至少一个跟踪目标的预测位置信息确定为至少一个跟踪目标在当前图像帧中的位置信息,并对应更新至跟踪目标轨迹集合的关于至少一个跟踪目标的轨迹数据中,其中,跟踪目标轨迹集合包括若干个跟踪目标的轨迹数据。上述方案,能够简化多目标跟踪任务,提高多目标跟踪任务的效率。
-
公开(公告)号:CN118069879A
公开(公告)日:2024-05-24
申请号:CN202410172633.4
申请日:2024-02-06
申请人: 浙江大华技术股份有限公司
IPC分类号: G06F16/583 , G06F16/532 , G06F16/538 , G06V40/16 , G06V10/74 , G06V10/46 , G06V10/24 , G06V10/44 , G06N3/0464 , G06N3/048 , G06N3/08
摘要: 本申请提出一种特征检索方法、装置及计算机存储介质,所述特征检索方法包括:将待检测图像输入特征提取网络,获取人脸高阶特征向量;将所述高阶特征向量输入特征提取网络,获取人脸属性特征向量;利用所述人脸属性特征向量搜索目标类别的底库;利用所述人脸高阶特征向量从所述目标类别的底库的底库图像中检索出目标图像。通过上述方式,在特征检索的过程通过人脸属性特征搜索对应的目标类别的底库,无须将待检索图像与底库中每一张图像进行对比,提高特征检索效率。
-
-
-
-
-
-
-
-
-