-
公开(公告)号:CN119942055A
公开(公告)日:2025-05-06
申请号:CN202510057291.6
申请日:2025-01-14
Applicant: 天津理工大学 , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V10/24 , G06V10/764 , G06V10/80 , G06V10/762
Abstract: 本发明涉及一种模糊片段增强和假阳性抑制的弱监督时序动作定位方法,属于计算机视觉领域。其包括以下步骤:数据获取;前景注意分数与片段级动作分类;模糊片段增强;动作背景分离;假阳性抑制;视频级动作分类与定位。本发明通过对模糊片段构建正负样本对,并采用对比学习损失约束,来增大模糊片段与可判别动作和背景片段的语义相关性,从而增强模糊片段的判别性,更好地进行前景背景分离;此外依据假阳性片段掩码以及计算假阳性分数对原始激活序列进行假阳性抑制,得到假阳性抑制的激活序列作为伪标签用监督损失约束,对原始的激活序列进行校正,达到抑制假阳性片段的目的,能够获得更准确的动作定位效果。
-
公开(公告)号:CN119625792B
公开(公告)日:2025-05-06
申请号:CN202510151987.5
申请日:2025-02-12
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V40/10 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/0464
Abstract: 本发明涉及一种基于强化共性特征的换衣行人重识别方法及系统,属于计算机视觉技术领域。其包括以下步骤:获取待检索的行人图像数据集,并在数据集中确定原始图像和与原始图像相同身份标签的图像;数据集中图像经过衣服混合与匹配模块、人体身份增强流模块以及ResNet50模型进行特征提取,然后经过共性特征提取模块生成显著图,最后经过分类器得到分类结果;通过损失函数对前述过程进行迭代优化,得到训练好的ResNet50模型;将待检测图像输入到训练好的模型中,得到检索特征;将检索特征与检索库中的行人图像特征进行相似度匹配,得到行人重识别结果。本发明能够提取适应换衣场景下的更有鲁棒性和判别性的特征。
-
公开(公告)号:CN118898255B
公开(公告)日:2025-02-07
申请号:CN202411388055.4
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
IPC: G06F40/30 , G06F40/284 , G06F40/226 , G06N3/042 , G06N3/0464 , G06N3/08 , G06V20/40 , G06V10/80
Abstract: 本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
-
公开(公告)号:CN118918516B
公开(公告)日:2024-12-27
申请号:CN202411396801.4
申请日:2024-10-09
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
Abstract: 本发明属于目标视频片段定位技术领域,提供了一种基于语义对齐的目标视频片段定位方法、系统及产品,其技术方案为基于不同层次上的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数;根据全局对齐损失函数和局部语义对齐损失函数,对齐视频和文本两种模态的语义特征;推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;根据视频和文本两种模态完整的语义特征替换输入的视觉与文本特征,对目标视频片段定位。本发明能进行有效的跨模态语义对齐建模,从而克服了多模态信息缺失与语义信息模糊的问题,实现目标视频片段的准确检索。
-
公开(公告)号:CN118898255A
公开(公告)日:2024-11-05
申请号:CN202411388055.4
申请日:2024-10-08
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
IPC: G06F40/30 , G06F40/284 , G06F40/226 , G06N3/042 , G06N3/0464 , G06N3/08 , G06V20/40 , G06V10/80
Abstract: 本发明属于多模态联合建模的对话意图处理技术领域。提供了一种基于视觉文本联合建模的共指消解、词义消歧方法及系统,基于文本增强特征和视频增强特征,使用跨注意力特征网络进行特征调整,得到调整后特征,使用分布相似度度量对调整后特征进行协调,对协调后的特征进行共指消解预测,得到输入文本对应的共指消解结果;本发明通过跨模态注意力机制,将文本特征和视觉特征融合,生成准确的联合表示,捕捉文本与视频内容之间的深层语义关系,从而构建了高效的词义消歧模型,克服了现有方法面对用户复杂多变的自然语言查询语句时消歧表现不佳的问题。
-
公开(公告)号:CN120032301A
公开(公告)日:2025-05-23
申请号:CN202510510087.5
申请日:2025-04-23
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 北京三快在线科技有限公司 , 浙江大华技术股份有限公司 , 合肥工业大学
IPC: G06V20/40 , G06V10/24 , G06V20/70 , G06V10/80 , G06V10/82 , G06V10/52 , G06N3/0455 , G06N3/09 , G06F16/783
Abstract: 本发明提供了一种第一视角视频定位方法及系统,获取第一视角视频和查询文本;使用预训练的物品检测器从第一视角视频中提取物品注释,并通过与查询文本中的名词匹配筛选出与查询相关的物品类别;利用预训练的特征编码器编码视频、物品和文本信息,提取出视频特征、物品特征与文本特征,进行文本特征上下文建模,并执行文本与物品间的特征交互;利用包含使用选择性状态空间的线性时间序列模型以及交叉注意力的多模态融合模块进行视频特征序列理解和特征融合,获得多模态特征表示;使用所述多模态特征表示,进行第一视角视频片段定位。本发明克服了现有技术中缺乏细粒度语义信息和难以理解第一视角视频的缺陷。
-
公开(公告)号:CN119295886B
公开(公告)日:2025-04-18
申请号:CN202411844794.X
申请日:2024-12-16
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V10/80 , G06V10/44 , G06V10/774 , G06V10/82 , G06V20/62 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于多尺度特征融合的X‑ray图像违禁品检测方法,属于图像处理技术领域。其包括以下步骤:获取X‑ray违禁品数据集,并将数据集划分为训练集和测试集;构建基于多尺度特征融合的X‑ray图像违禁品目标检测模型,所述模型包括图像分支、自适应高低通滤波器模块、文本分支、Neck层和Head头;训练集中图像输入到模型中对模型进行训练;采用损失函数对模型进行优化,得到训练好的模型;测试集中图像输入到训练好的模型中,得到违禁品检测结果。本发明通过图像文本的联合训练,在实时监测任务中提升性能的同时更加高效,减少计算量和内存占用,解决了复杂场景中图像边界细节模糊问题。
-
公开(公告)号:CN118942017B
公开(公告)日:2024-12-31
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118898797B
公开(公告)日:2024-12-27
申请号:CN202411404288.9
申请日:2024-10-10
Applicant: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06V20/40 , G06V10/774 , G06V10/24 , G06V10/80
Abstract: 本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统,获取查询语句和待检索视频的语义特征表示;通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互,融合多模态信息;预测每个视频单元被保留的概率,并依据概率保留高信息有效性的视频单元;通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间;通过插入适配层对图文预训练大模型进行微调,并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解,同时兼顾了视频行为片段候选集的生成速度和精度。
-
公开(公告)号:CN118942017A
公开(公告)日:2024-11-12
申请号:CN202411418791.X
申请日:2024-10-12
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心) , 山东师范大学
IPC: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
Abstract: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
-
-
-
-
-
-
-
-