-
公开(公告)号:CN111738174A
公开(公告)日:2020-10-02
申请号:CN202010592997.X
申请日:2020-06-25
Applicant: 中国科学院自动化研究所 , 中国科学技术信息研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于深度解耦的人体实例解析方法、系统,旨在为了解决漏检和误检影响实例人体解析识别精度的问题,本发明方法包括:获取输入图像中候选区域的实例检测框和特征;所述候选区域为人体实例的候选区域;所述人体实例包括人体整体实例、人体部件实例;基于所述候选区域的特征,获取候选区域对应实例的实例掩模和实例特征;基于各候选区域对应的实例检测框、实例掩模、实例特征,通过层级式聚类算法进行人体整体-人体部件关联聚类,获取人体实例解析结果。本发明可以提升实例人体解析的识别精度并减少人体实例的漏检和误检。
-
公开(公告)号:CN119964227A
公开(公告)日:2025-05-09
申请号:CN202411725597.6
申请日:2024-11-28
Applicant: 中国科学院自动化研究所
IPC: G06V40/20 , G06V40/10 , G06V20/60 , G06V10/82 , G06V10/25 , G06V10/44 , G06N3/0455 , G06N3/096 , G06N5/045
Abstract: 本发明提供一种基于可解释视觉提示的人物交互行为识别方法和装置,包括:基于获取的多个包含人物交互行为的图片生成人物交互行为识别数据集;将数据集中的图像输入特征提取网络得到全图特征;将全图特征与为图像添加的视觉提示输入人体物体检测器,得到人体视觉特征、物体视觉特征、人体视觉提示和物体视觉提示;将这些特征输入人物交互行为解码器得到交互行为特征;基于预训练的教师网络模型对图像进行检测得到人体姿态特征、物体特征和交互区域特征,作为教师特征,将人体视觉提示、物体视觉提示和交互行为特征作为学生特征,蒸馏识别网络的参数,得到训练后的人物交互行为识别网络。基于该网络能够实现准确的人物交互行为识别。
-
公开(公告)号:CN119964043A
公开(公告)日:2025-05-09
申请号:CN202411728301.6
申请日:2024-11-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于双层混合专家模型的视频理解方法和装置,包括:将获取的文本描述进行文本扩增,同时生成可学习的文本提示,将文本扩增得到的扩增文本描述与可学习的文本提示进行编码得到文本特征;将视频分成多个视频序列块,将视频与各视频序列块拼接后输入视频编码器进行编码得到视觉特征;每个视频序列块包含同一位置的完整视频信息以及可学习的视觉提示;利用预训练的大语言模型基于视觉特征和文本特征分别生成视觉标记和文本标记;使用双层混合专家模型学习视觉标记和文本标记得到视频内容表述。本发明通过结合文本描述和视觉特征,以及使用预训练的大语言模型和双层混合专家模型,能够更准确地理解视频内容。
-
公开(公告)号:CN119006598B
公开(公告)日:2025-04-29
申请号:CN202411457850.4
申请日:2024-10-18
Applicant: 中国科学院自动化研究所
IPC: G06T7/73 , G06N3/0455 , G06F18/25
Abstract: 本发明提供一种基于深度学习的姿态估计方法以及系统,应用于图像识别领域,其中,方法包括:获取目标图像、自然语言指令以及模板图像;通过预设的提示生成器,分别对自然语言指令与模板图像进行编码,得到文本特征与视觉特征;通过提示生成器的大语言模型,对文本特征与视觉特征进行多模态特征融合,得到多模态特征信息;通过提示生成器的视觉嵌入投影层,基于多模态特征信息,生成姿态提示向量;将目标图像与姿态提示向量输入至预设的姿态估计器,得到姿态估计器输出的关键点热力图;对关键点热力图进行关键点位置解析,得到目标图像的姿态估计结果。通过本发明能够灵活地适应不同的类别的姿态估计需求。
-
公开(公告)号:CN114299296A
公开(公告)日:2022-04-08
申请号:CN202111586120.0
申请日:2021-12-21
Applicant: 上海商汤智能科技有限公司 , 中国科学院自动化研究所
IPC: G06V10/40
Abstract: 本公开涉及一种图像处理、缺陷检测方法及装置、电子设备和存储介质,所述图像处理方法包括:对根据待处理图像得到的第一输入特征图在通道维度进行分组全连接处理,得到中间输出特征图;对所述中间输出特征图在空间维度进行局部特征聚合,得到聚合特征图;对所述聚合特征图在通道维度进行全连接处理,得到目标输出特征图,其中,所述目标输出特征图用于表征所述待处理图像中的目标对象。本公开实施例可以提高全连接处理的处理效率。
-
公开(公告)号:CN114140831A
公开(公告)日:2022-03-04
申请号:CN202210113382.3
申请日:2022-01-30
Applicant: 中国科学院自动化研究所
IPC: G06V40/10 , G06V10/40 , G06V10/74 , G06V10/774 , G06K9/62
Abstract: 本发明提供一种人体姿态估计方法、装置、电子设备及存储介质,方法包括:获取目标图像;将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置,通过人体姿态估计模型实现了端到端的人体姿态估计,提升了人体姿态估计的效率。
-
公开(公告)号:CN113435430B
公开(公告)日:2021-11-09
申请号:CN202110992358.7
申请日:2021-08-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于自适应时空纠缠的视频行为识别方法、系统、设备,旨在解决现有的行为识别方法未注意到时空线索对不同动作类的差异化影响,导致行为类别识别鲁棒性较差的问题。本方法包括从输入视频流中获取待行为识别的图像,作为输入图像;通过训练好的行为识别模型获取所述输入图像的行为类别;其中,所述行为识别模型基于卷积神经网络构建。本发明提高了行为类别识别的鲁棒性。
-
公开(公告)号:CN112801238A
公开(公告)日:2021-05-14
申请号:CN202110403926.5
申请日:2021-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种图像分类方法、装置、电子设备及存储介质,该方法包括:确定待分类图像中每一像素的特征表示;基于每一像素的特征表示,以及各个预设类别对应的全局特征表示,确定每一像素的特征增强表示;基于每一像素的特征表示和特征增强表示,确定所述待分类图像对应的预设类别;其中,所述全局特征表示是基于样本图像,以及样本图像中每一像素对应的预设类别确定的。本发明提供的方法、装置、电子设备及存储介质,采用像素级的特征增强方式提高了对图像中细节的表达能力,提高了图像的分类准确性。
-
公开(公告)号:CN112200193A
公开(公告)日:2021-01-08
申请号:CN202011393777.0
申请日:2020-12-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别以及智能交通领域,具体涉及一种基于多属性融合的分布式车牌识别方法、系统、装置,旨在进一步提升自然场景中车牌识别结果准确性、有效性和可信度。本系统方法包括获取待识别的车牌图像;提取车牌图像的特征,作为初始特征;对初始特征进行深度编码,得到与车牌图像类型相关的类型特征,并通过图像类型分类器得到类型预测结果;对初始特征进行深度编码,得到与车牌颜色相关的颜色特征,并通过图像颜色分类器得到颜色预测结果;将初始特征、类型特征、颜色特征融合后进行深度编码,得到与车牌图像相关的文本特征,并通过预构建的字符序列生成器得到车牌号识别结果。本发明提高了识别准确性、有效性和可信度。
-
公开(公告)号:CN111783755A
公开(公告)日:2020-10-16
申请号:CN202010918877.4
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉领域,具体涉及一种基于空间变换信息传递的人体关键点检测方法与系统,旨在减少空预测、假阳性预测的产生。本发明的检测方法包括:将待检测的人体图像输入对抗网络,提取关键点特征和肢干特征,进而生成关键点第一热度图和肢干热度图;将待检测的人体图像进行降采样,得到降采样后的人体图像;根据降采样后的人体图像、关键点第一热度图、肢干热度图和关键点特征,基于空间变换网络生成经过信息传递修正后的关键点热度图。本发明通过对相邻关键点的空间关系变换和传递补充了人体关键点的预测先验,抑制了遮挡与人体姿态多样性给关键点预测带来的噪声,从而有效减少空预测、假阳性预测的产生。
-
-
-
-
-
-
-
-
-