-
公开(公告)号:CN114419374B
公开(公告)日:2025-01-10
申请号:CN202210067225.3
申请日:2022-01-20
Applicant: 上海商汤智能科技有限公司 , 中国科学院自动化研究所
IPC: G06V10/82 , G06V10/40 , G06V10/44 , G06V10/26 , G06V10/25 , G06V10/764 , G06V20/70 , G06N3/0464 , G06N3/045 , G06N3/088 , G06N3/0895
Abstract: 本申请实施例公开了一种模型训练及图像处理方法、装置、设备、存储介质及计算机程序产品,其中该方法包括:基于第一图像样本,确定第一场景图像和第二场景图像;第一场景图像与第二场景图像之间具有重叠区域;利用待训练的第一模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第一场景特征和所述第二场景图像的第二场景特征,并利用第二模型,对第一场景图像和第二场景图像分别进行特征提取,得到第一场景图像的第三场景特征和第二场景图像的第四场景特征;基于第一场景特征和第二场景特征、第三场景特征和第四场景特征,确定目标损失值;基于目标损失值,对第一模型的模型参数进行至少一次更新,得到训练后的第一模型。
-
公开(公告)号:CN109785385B
公开(公告)日:2021-01-29
申请号:CN201910058977.1
申请日:2019-01-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种视觉目标跟踪方法及系统,所述视觉目标跟踪方法包括:获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息;根据各所述历史目标模板,从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域;根据目标定位模型,及每组目标模板图像及搜索区域,预测所述目标模板图像在搜索区域中的预测位置信息;基于动作网络模型,根据所述目标模板图像的预测位置信息及所述历史位置信息,确定所述目标模板图像的目标位置预测收益值;比较各个目标模板图像的目标位置预测收益值,确定目标位置预测收益值最大的目标模板图像的预测位置信息,从而能够精准确定待跟踪目标的当前帧图像的预测位置信息。
-
公开(公告)号:CN111739115A
公开(公告)日:2020-10-02
申请号:CN202010583710.7
申请日:2020-06-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于领域,具体涉及了一种基于循环一致性的无监督人体姿态迁移方法,旨在解决现有的姿态迁移方法在跨身份人体姿态迁移任务中适应性差、生成图像质量较低的问题。本发明包括:获取一个人体图像和另一目标姿态并根据人体图象和目标姿态通过基于循环一致性的无监督对抗网络生成姿态迁移图像,所述基于循环一致性的无监督对抗网络通过无身份标签的训练图像以及设定的全局损失函数进行迭代训练。本发明提高了跨身份人体姿态迁移任务的适应性,提高了生成图像的质量。
-
公开(公告)号:CN109785385A
公开(公告)日:2019-05-21
申请号:CN201910058977.1
申请日:2019-01-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种视觉目标跟踪方法及系统,所述视觉目标跟踪方法包括:获取多个历史目标模板及待跟踪目标的当前视频序列的历史位置信息;根据各所述历史目标模板,从所述待跟踪目标的当前视频序列中确定多组目标模板图像及搜索区域;根据目标定位模型,及每组目标模板图像及搜索区域,预测所述目标模板图像在搜索区域中的预测位置信息;基于动作网络模型,根据所述目标模板图像的预测位置信息及所述历史位置信息,确定所述目标模板图像的目标位置预测收益值;比较各个目标模板图像的目标位置预测收益值,确定目标位置预测收益值最大的目标模板图像的预测位置信息,从而能够精准确定待跟踪目标的当前帧图像的预测位置信息。
-
公开(公告)号:CN101777185A
公开(公告)日:2010-07-14
申请号:CN200910242339.1
申请日:2009-12-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种融合描述式和判别式建模的目标跟踪方法,包括以下步骤:1.t=1,在第1帧图像中的被跟踪目标及其邻近背景上随机抽取多尺度小图像块集合并训练两对二类支持向量机和一类支持向量机作为被跟踪目标的模型;2.在第t+1帧图像中随机抽取多尺度小图像块集合并通过被跟踪目标的模型确定第t+1帧图像中小图像块属于被跟踪目标的置信度,用新一帧图像中小图像块的置信度及其中心坐标构造置信图;在置信图上用均值移动算法获得被跟踪目标在新一帧图像中的新位置;根据图像块置信度和被跟踪目标的新位置,对当前帧中的小图像块分类,并根据分类结果更新被跟踪目标的模型;3.若未到视频文件的结尾,递增t,返回步骤2;4.终止。
-
公开(公告)号:CN101777184A
公开(公告)日:2010-07-14
申请号:CN200910237840.9
申请日:2009-11-11
Applicant: 中国科学院自动化研究所
IPC: G06T7/20
Abstract: 本发明为基于局部距离学习和排序队列的视觉目标跟踪方法,包括:步骤1:用目标框和背景框在第一帧图像中选定目标及其附近背景,在各框中随机采样得到表示目标及其局部背景的两个小图像片集;学习各目标小图像片的局部距离度量函数并建立其排序队列,计算该排序队列的纯净度并建立目标模型;步骤2:对下一帧图像随机采样得到一个新的小图像片集;计算目标模型中各小图像片与所有新小图像片的距离并建立一个排序队列;根据新小图像片在各排序队列中的位置计算其置信度并建立置信图;步骤3:利用置信图确定新一帧图像中目标的位置;步骤4:更新目标小图像片集和背景小图像片集;步骤5:更新目标模型及局部距离度量函数和纯净度,返回步骤2。
-
公开(公告)号:CN119557470A
公开(公告)日:2025-03-04
申请号:CN202510125430.4
申请日:2025-01-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/55 , G06F16/583
Abstract: 本发明提供一种图文检索方法、装置、设备、存储介质及程序产品,应用于计算机视觉技术领域。该方法包括:获取图像描述文本,并基于所述图像描述文本确定候选图像集合;将所述候选图像集合中的候选图像划分为多个类簇,并确定每个类簇的代表图像;根据所述代表图像生成N个场景问题,并通过与用户交互问答的形式确定所述N个场景问题的场景答案;基于所述场景问题、所述场景答案以及所述图像描述文本生成场景图;基于所述场景图、所述场景问题、所述场景答案以及所述图像描述文本进行相似度检索,得到目标图像;其中,N为大于0的整数。
-
公开(公告)号:CN118887375A
公开(公告)日:2024-11-01
申请号:CN202411347904.1
申请日:2024-09-26
Applicant: 中国科学院自动化研究所
IPC: G06V10/22 , G06V10/26 , G06V10/764 , G06V10/82
Abstract: 本发明提供一种数据处理方法、装置、设备、存储介质及程序产品,应用于数据处理技术领域。该方法包括:获取待处理图像;将所述待处理图像输入单图文模型得到对应的文本描述信息,将所述待处理图像输入图像分割模型得到所述待处理图像中的对象类别信息;将所述文本描述信息和所述对象类别信息输入大语言模型,生成多对象关联问答信息,所述多对象关联问答信息包括图像理解信息和对象位置信息;对所述多对象关联问答信息中的对象进行图像回填,得到第一图文数据;将所述待处理图像和所述多对象关联问答信息输入奖励模型,得到检查项分数;根据所述检查项分数确定是否将所述第一图文数据确定为多模态训练数据。
-
公开(公告)号:CN118570481A
公开(公告)日:2024-08-30
申请号:CN202411062005.7
申请日:2024-08-05
Applicant: 中国科学院自动化研究所
IPC: G06V10/26 , G06V10/44 , G06F40/30 , G06V10/82 , G06N3/0455
Abstract: 本发明提供一种基于隐式结构特征的生成式指代分割方法及装置,涉及图像数据处理技术领域,方法包括:获取待分割图像和提问文本;对提问文本编码处理得到文本特征,并对分割图像编码处理得到图像特征,将文本特征与图像特征合并得到特征序列;调用预训练结构化特征提取网络提取真实结构特征,并将特征序列输入到大语言模型中,通过真实结构特征监督大语言模型,生成得到物体类别以及隐式结构特征,进而预测得到指代物体在待分割图像中的外接多边形轮廓坐标,用于分割出指代物体。通过本发明,解决现有技术中由于计算机视觉的定位任务难以统一到生成式框架中,使得生成式分割模型结构复杂且计算复杂度高,导致目标定位效果低下的技术问题。
-
公开(公告)号:CN116310520A
公开(公告)日:2023-06-23
申请号:CN202310153095.X
申请日:2023-02-10
Applicant: 中国科学院自动化研究所 , 武汉人工智能研究院
IPC: G06V10/764 , G06V10/40 , G06V10/74 , G06V10/82
Abstract: 本发明涉及图像处理技术领域,提供一种目标检测方法、装置、电子设备以及存储介质,其中方法包括:确定目标图像的多个图像块特征以及类别集合对应的类别特征集合;基于图像类别统一编码器,对图像块特征以及类别特征集合中的类别特征进行自注意力编码,基于得到的图像块编码特征与类别编码特征集合中各类别编码特征的相似度,确定目标类别编码特征用于目标检测,得到目标图像的目标检测结果。本发明提供的目标检测方法、装置、电子设备以及存储介质,通过图像类别统一编码器,以统一的方式为图像块和类别提取编码特征用于后续实现目标检测,从而实现了开放类别的目标检测,有效地在提升了目标检测模型在未见过类别上的泛化能力。
-
-
-
-
-
-
-
-
-