-
公开(公告)号:CN119379524A
公开(公告)日:2025-01-28
申请号:CN202411918332.8
申请日:2024-12-25
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06T1/00 , G06N3/0455 , G06N3/0475 , G06N3/09 , G06N3/094
Abstract: 本发明涉及一种基于多重水印融合与跨域学习的图像伪造主动防御方法,属于计算机视觉技术领域。其包括以下步骤:获取待处理图像;待处理图像经过水印编码器进行不可见水印嵌入和可见水印嵌入,分别得到嵌入不可见水印的图像和嵌入可见水印的图像;嵌入不可见水印的图像经过噪声层进行处理,得到噪声图像;嵌入可见水印的图像经过噪声层进行处理,通过可见水印联合优化在嵌入随机噪声的图像位置产生明显的虚假警示标识;噪声图像经过水印解码器进行图像的溯源和检测,判断图像的真实性;进行损失函数监督训练。本发明方法能够精准的判断图像是否经过深度伪造以及验证图像来源的真实性。
-
公开(公告)号:CN118939682B
公开(公告)日:2025-01-14
申请号:CN202411425826.2
申请日:2024-10-14
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 山东省计算中心(国家超级计算济南中心)
IPC: G06F16/2452 , G06F16/242 , G06N5/022
Abstract: 本发明提供了一种基于知识引导的层级查询语句意图理解方法及系统,涉及自然语言处理技术领域,所述方法包括,获取查询语句,将查询语句转换为不同层级的语义嵌入向量;将外部知识图谱转化为知识嵌入矩阵,检索知识嵌入矩阵中与各层级的语义嵌入向量最相关的知识嵌入向量,将检索到的知识嵌入向量与对应的语义嵌入向量融合,得到各层级融合后的语义嵌入向量;根据各层级融合后的语义嵌入向量获取权重矩阵,计算权重重分配后的语义嵌入向量;基于注意力机制融合权重重分配后的语义嵌入向量与文本嵌入向量,得到查询语句的精确表征,确定查询语句的意图。本发明能够提高查询语句的理解与表征精准度。
-
公开(公告)号:CN119229478A
公开(公告)日:2024-12-31
申请号:CN202411755122.1
申请日:2024-12-03
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 天津理工大学 , 合肥工业大学
IPC: G06V40/10 , G06V10/26 , G06V10/44 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明属于计算机视觉技术领域,提供了一种基于结合人体语义与三维重构的行人搜索方法及系统。步骤如下:首先获取待检索的行人图像,将图像输入训练好的换衣行人特征提取网络,提取在换衣情况下的行人特征,换衣行人重特征提取网络通过换衣模块扩充数据集样本,使模型重点学习衣服区域外的行人特征表示,减轻衣服变化带来的干扰,对行人图像进行三维建模,仅保留行人头部,学习额外的行人体型和头部特征,最后将原始图像特征与三维建模图像特征进行特征融合得到全局的行人特征,利用得到的待检索图像的行人特征与检索图库中的行人特征进行相似度匹配,根据相似性得分进行排序得到行人检索结果。本发明可以大幅度提升行人搜索的准确率和鲁棒性。
-
公开(公告)号:CN117648429A
公开(公告)日:2024-03-05
申请号:CN202410121781.3
申请日:2024-01-30
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学
IPC: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04 , G06N3/0464 , G06N3/08
Abstract: 本发明属于问答模型技术领域,为解决现有生成答案的准确率低的问题,提供一种基于多模态自适应检索式增强大模型的问答方法及系统。其中,基于多模态自适应检索式增强大模型的问答方法包括接收待回答的问题;基于多模态自适应检索式增强大模型及多模态知识库,生成预测答案;多模态自适应检索式增强大模型包括检索器、检索排序器和生成器;检索器提取问题及多模态知识库中的每个知识对应的多模态融合特征,计算每个知识和问题的相似度,选取TOP‑K知识;根据问题及知识标签,利用检索排序器从TOP‑K知识中判定出与问题相关的知识,得到检索的相关知识;生成器生成预测答案,其能够大大提高了模态问答的检索和生成答案的准确率。
-
公开(公告)号:CN117593215A
公开(公告)日:2024-02-23
申请号:CN202410077241.X
申请日:2024-01-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明属于图像自监督预训练领域,为解决生成模型生成图像的准确性差的问题,提供一种生成模型增强的大规模视觉预训练方法及系统。其中,生成模型增强的大规模视觉预训练方法包括利用预训练的生成模型,自适应生成原始图像所对应的正视图;对原始图像和正视图进行数据增强,生成增强后的正样本对,使用预训练的图像编码器提取正样本对的特征表示;根据正样本对的特征表示,计算注意力掩码来分隔前景区域和背景区域;评估正样本对的质量来调整每个正样本对在训练生成模型过程中对整体损失的贡献,计算每个正样本对的重新加权因子,得到最终损失函数,以确定是否继续训练生成模型,其能够减轻低质量和错误图像对生成模型生成图像准确性的影响。
-
公开(公告)号:CN119942055A
公开(公告)日:2025-05-06
申请号:CN202510057291.6
申请日:2025-01-14
Applicant: 天津理工大学 , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V10/24 , G06V10/764 , G06V10/80 , G06V10/762
Abstract: 本发明涉及一种模糊片段增强和假阳性抑制的弱监督时序动作定位方法,属于计算机视觉领域。其包括以下步骤:数据获取;前景注意分数与片段级动作分类;模糊片段增强;动作背景分离;假阳性抑制;视频级动作分类与定位。本发明通过对模糊片段构建正负样本对,并采用对比学习损失约束,来增大模糊片段与可判别动作和背景片段的语义相关性,从而增强模糊片段的判别性,更好地进行前景背景分离;此外依据假阳性片段掩码以及计算假阳性分数对原始激活序列进行假阳性抑制,得到假阳性抑制的激活序列作为伪标签用监督损失约束,对原始的激活序列进行校正,达到抑制假阳性片段的目的,能够获得更准确的动作定位效果。
-
公开(公告)号:CN119625792B
公开(公告)日:2025-05-06
申请号:CN202510151987.5
申请日:2025-02-12
Applicant: 齐鲁工业大学(山东省科学院) , 山东省人工智能研究院 , 山东省计算中心(国家超级计算济南中心) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 合肥工业大学
IPC: G06V40/10 , G06V10/82 , G06V10/764 , G06V10/74 , G06N3/0464
Abstract: 本发明涉及一种基于强化共性特征的换衣行人重识别方法及系统,属于计算机视觉技术领域。其包括以下步骤:获取待检索的行人图像数据集,并在数据集中确定原始图像和与原始图像相同身份标签的图像;数据集中图像经过衣服混合与匹配模块、人体身份增强流模块以及ResNet50模型进行特征提取,然后经过共性特征提取模块生成显著图,最后经过分类器得到分类结果;通过损失函数对前述过程进行迭代优化,得到训练好的ResNet50模型;将待检测图像输入到训练好的模型中,得到检索特征;将检索特征与检索库中的行人图像特征进行相似度匹配,得到行人重识别结果。本发明能够提取适应换衣场景下的更有鲁棒性和判别性的特征。
-
公开(公告)号:CN119476410A
公开(公告)日:2025-02-18
申请号:CN202510026657.3
申请日:2025-01-08
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N3/096
Abstract: 本发明属于人工智能与深度学习领域,为了解决新旧知识的不平衡和适配性差的问题,提供基于持续知识保护分解的小样本持续学习方法及系统。其中,基于持续知识保护分解的小样本持续学习方法包括基于每个类别的回放样本数据及持续学习模型骨干网络,经奇异值分解得到知识敏感成分和冗余容量成分;在增量适配训练过程中,冻结知识敏感成分所对应的预训练线性权重矩阵;同时利用冗余容量成分来构建可学习的适配器,更新预训练线性权重矩阵;重新获取小样本回放数据,基于更新后的预训练线性权重矩阵再次进行奇异值分解及增量适配训练操作。其通过协方差矩阵的动态更新,实现了新旧知识的平衡和高效适配,提高了分类结果的准确性。
-
公开(公告)号:CN118711168B
公开(公告)日:2024-11-22
申请号:CN202411196066.2
申请日:2024-08-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京达佳互联信息技术有限公司 , 山东大学
Abstract: 本发明属于视频数据处理技术领域,为解决数据数量、多样性和质量三者无法同时兼顾的问题,提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中,基于无标注网络视频数据的多模态预训练方法包括:利用大语言模型和图像‑文本模型对视频数据集进行初步细化,生成初步的训练数据集,再引入噪音控制损失函数下,初步训练视频‑语言大模型,作为前一阶段训练得到的视频‑语言大模型;在前一阶段训练得到的视频‑语言大模型未训练完成时,利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化,再引入同样噪音控制损失函数下,迭代训练视频‑语言大模型,直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。
-
公开(公告)号:CN118711168A
公开(公告)日:2024-09-27
申请号:CN202411196066.2
申请日:2024-08-29
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 北京达佳互联信息技术有限公司 , 山东大学
Abstract: 本发明属于视频数据处理技术领域,为解决数据数量、多样性和质量三者无法同时兼顾的问题,提供了一种基于无标注网络视频数据的多模态预训练方法及系统。其中,基于无标注网络视频数据的多模态预训练方法包括:利用大语言模型和图像‑文本模型对视频数据集进行初步细化,生成初步的训练数据集,再引入噪音控制损失函数下,初步训练视频‑语言大模型,作为前一阶段训练得到的视频‑语言大模型;在前一阶段训练得到的视频‑语言大模型未训练完成时,利用前一阶段训练得到的视频‑语言大模型对视频数据集迭代细化,再引入同样噪音控制损失函数下,迭代训练视频‑语言大模型,直至训练完成。其提高了视频中的语音与字幕对应关系识别准确性。
-
-
-
-
-
-
-
-
-