-
公开(公告)号:CN115100419B
公开(公告)日:2023-02-21
申请号:CN202210851147.6
申请日:2022-07-20
Applicant: 中国科学院自动化研究所
IPC: G06V10/40 , G06V10/774
Abstract: 本发明提供一种目标检测方法、装置、电子设备及存储介质,涉及计算机视觉技术领域,包括:确定待检测图像和目标物体类别集,目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别;将目标物体类别集和待检测图像输入至目标检测模型,获取目标检测结果;目标检测结果包括待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置;目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体类别标签和样本物体位置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。本发明方法结合额外输入的目标物体类别集,灵活控制所需检测的目标物体,能够更好地适配多样化的目标检测定制需求。
-
公开(公告)号:CN114842307B
公开(公告)日:2022-10-28
申请号:CN202210776862.8
申请日:2022-07-04
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/778
Abstract: 本发明提供一种掩码图像模型训练方法、掩码图像内容预测方法和设备,涉及图像处理技术领域,解决了预测的掩码图像内容准确度较低的问题。训练方法包括:将多个图像样本对应的可视化图像块输入至初始掩码图像模型中的非对称结构的初始编码模型中,得到各可视化图像块对应的编码特征对,并将各可视化图像块对应的编码特征对和第二数量个预设掩码补丁输入至初始掩码图像模型中的初始解码模型中,得到各掩码图像块对应的解码结果对;再根据多个图像样本各自对应的第二数量个掩码图像块和解码结果对,对初始编码模型和初始解码模型的模型参数进行更新,训练得到的掩码图像模型可以准确地预测掩码图像块的图像内容,提高了预测结果的准确度。
-
公开(公告)号:CN115100419A
公开(公告)日:2022-09-23
申请号:CN202210851147.6
申请日:2022-07-20
Applicant: 中国科学院自动化研究所
IPC: G06V10/40 , G06V10/774
Abstract: 本发明提供一种目标检测方法、装置、电子设备及存储介质,涉及计算机视觉技术领域,包括:确定待检测图像和目标物体类别集,目标物体类别集用于表征需要从待检测图像中检测的不同目标物体类别;将目标物体类别集和待检测图像输入至目标检测模型,获取目标检测结果;目标检测结果包括待检测图像中与目标物体类别集对应的目标物体的目标类别和目标位置;目标检测模型是基于样本物体类别集、样本图像,以及样本图像中样本物体类别标签和样本物体位置标签训练得到的,样本物体类别集用于表征需要从样本图像中检测的不同样本物体类别。本发明方法结合额外输入的目标物体类别集,灵活控制所需检测的目标物体,能够更好地适配多样化的目标检测定制需求。
-
公开(公告)号:CN118690855A
公开(公告)日:2024-09-24
申请号:CN202411162727.X
申请日:2024-08-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像理解方法、装置、设备、存储介质及程序产品,属于人工智能技术领域。方法包括:将目标图像及对应的问题输入到目标通用图文模型中,得到目标通用图文模型输出的答案;其中,目标通用图文模型是通过如下方式训练的:将训练样本输入到初始通用图文模型中,得到初始通用图文模型输出的主体特征向量、客体特征向量以及自回归损失函数;将主体特征向量以及客体特征向量输入到分割模型中,得到分割模型输出的主体特征掩码和客体特征掩码;基于主体特征掩码与主体的真实掩码、客体特征掩码与客体的真实掩码、自回归损失函数确定初始通用图文模型的目标损失函数。本发明提供的图像理解方法可以减轻通用图文模型的幻觉问题。
-
公开(公告)号:CN118350464A
公开(公告)日:2024-07-16
申请号:CN202410250372.3
申请日:2024-03-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及人工智能技术领域,提供一种基于任意粒度文本输入的对话式目标定位方法及装置,方法包括:将待定位图像输入视觉编码器提取图像特征,将图像特征投影至词嵌入空间得到图像词向量;对输入文本进行分词化得到分词向量,将分词向量映射至词嵌入空间得到文本词向量;将图像词向量和文本词向量作为图像文本词向量对,将图像文本词向量对输入至大型语言模型得到回答序列;回答序列包括待定位图像中的目标类别和目标位置;大型语言模型是基于样本输入文本、样本待定位图像、样本待定位图像中的标签目标类别和标签目标位置训练得到,利用大规模预训练获得的广泛知识,具备对任意粒度的文本输入进行定位的能力,提高对话式目标定位方法的准确性。
-
公开(公告)号:CN116310520A
公开(公告)日:2023-06-23
申请号:CN202310153095.X
申请日:2023-02-10
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V10/764 , G06V10/40 , G06V10/74 , G06V10/82
Abstract: 本发明涉及图像处理技术领域,提供一种目标检测方法、装置、电子设备以及存储介质,其中方法包括:确定目标图像的多个图像块特征以及类别集合对应的类别特征集合;基于图像类别统一编码器,对图像块特征以及类别特征集合中的类别特征进行自注意力编码,基于得到的图像块编码特征与类别编码特征集合中各类别编码特征的相似度,确定目标类别编码特征用于目标检测,得到目标图像的目标检测结果。本发明提供的目标检测方法、装置、电子设备以及存储介质,通过图像类别统一编码器,以统一的方式为图像块和类别提取编码特征用于后续实现目标检测,从而实现了开放类别的目标检测,有效地在提升了目标检测模型在未见过类别上的泛化能力。
-
公开(公告)号:CN115082430B
公开(公告)日:2022-12-06
申请号:CN202210851146.1
申请日:2022-07-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分析方法、装置及电子设备,涉及计算机视觉技术领域,该图像分析方法包括:获取目标视觉任务的待分析图像;将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列;该视觉分析模型用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物体特征的属性序列;该视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。本发明提供的技术方案能够将不同视觉任务统一成对待分析图像中物体的序列描述问题,视觉分析模型在多种视觉任务上具有通用性,提高了视觉任务处理的效率并降低了开发成本。
-
公开(公告)号:CN115082430A
公开(公告)日:2022-09-20
申请号:CN202210851146.1
申请日:2022-07-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分析方法、装置及电子设备,涉及计算机视觉技术领域,该图像分析方法包括:获取目标视觉任务的待分析图像;将待分析图像输入视觉分析模型,获得视觉分析模型输出的待分析图像中针对目标视觉任务的每一个目标物体特征的属性序列;该视觉分析模型用于基于目标视觉任务对待分析图像进行图像特征中目标物体特征的提取,并生成描述目标物体特征的属性序列;该视觉分析模型是基于目标视觉任务对应的样本图像和样本图像对应的标签数据训练得到的。本发明提供的技术方案能够将不同视觉任务统一成对待分析图像中物体的序列描述问题,视觉分析模型在多种视觉任务上具有通用性,提高了视觉任务处理的效率并降低了开发成本。
-
公开(公告)号:CN115035379A
公开(公告)日:2022-09-09
申请号:CN202110246762.X
申请日:2021-03-05
Applicant: 中国电子科技集团公司第五十四研究所 , 中国科学院自动化研究所
Abstract: 本发明公开一种目标识别方法及装置、计算机存储介质,涉及图像识别技术领域,以在资源受限场景下,利用卷积神经网络对目标进行快速充分识别,从而提升目标识别性能。所述方法包括获取图像信息;利用目标检测模型识别图像信息所含有的目标信息;该目标检测模型由采用加权方式融合有全局特征图蒸馏和含有目标的局部特征蒸馏的知识蒸馏模型确定。所述装置用于执行目标识别方法。本发明提供的装置用于目标识别中。
-
公开(公告)号:CN114419374A
公开(公告)日:2022-04-29
申请号:CN202210067225.3
申请日:2022-01-20
Applicant: 上海商汤智能科技有限公司 , 中国科学院自动化研究所
Abstract: 本申请实施例公开了一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品,其中该方法包括:基于第一图像样本,确定第一场景图像和第二场景图像;第一场景图像与第二场景图像之间具有重叠区域;利用待训练的第一模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第三场景特征和第二场景图像的第四场景特征;基于第一场景特征和第二场景特征、第三场景特征和第四场景特征,确定目标损失值;基于目标损失值,对第一模型的模型参数进行至少一次更新,得到训练后的第一模型。
-
-
-
-
-
-
-
-
-