-
公开(公告)号:CN111783754B
公开(公告)日:2020-12-08
申请号:CN202010918876.X
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及了一种基于部位上下文的人体属性图像分类方法、系统和装置,旨在解决现有的人体分类方法忽略了人体属性之间的关系而未考虑人体内在层次结构信息导致分类精确度不足的问题。本发明包括:通过人体属性图像分类模型获取人体属性分类预测图;人体属性图像分类模型先通过特征提取网络提取待测试图像的原始特征图,再基于原始特征图通过属性分类解析网络获取高阶特征图,通过关系聚合网络和关系离散网络分别提取合适的上下文信息,将原始特征图和合适的上下文信息融合后生成人体属性分类预测图。本发明解决了如何从复杂北京中,对不同的属性产生合适的上下文特征的问题,提高了人体图像识别的精确度。
-
公开(公告)号:CN111783754A
公开(公告)日:2020-10-16
申请号:CN202010918876.X
申请日:2020-09-04
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及了一种基于部位上下文的人体属性图像分类方法、系统和装置,旨在解决现有的人体分类方法忽略了人体属性之间的关系而未考虑人体内在层次结构信息导致分类精确度不足的问题。本发明包括:通过人体属性图像分类模型获取人体属性分类预测图;人体属性图像分类模型先通过特征提取网络提取待测试图像的原始特征图,再基于原始特征图通过属性分类解析网络获取高阶特征图,通过关系聚合网络和关系离散网络分别提取合适的上下文信息,将原始特征图和合适的上下文信息融合后生成人体属性分类预测图。本发明解决了如何从复杂北京中,对不同的属性产生合适的上下文特征的问题,提高了人体图像识别的精确度。
-
公开(公告)号:CN119887762A
公开(公告)日:2025-04-25
申请号:CN202510363946.2
申请日:2025-03-26
Applicant: 中国科学院自动化研究所
IPC: G06T7/00 , G06V10/764 , G06V10/26 , G06V10/82 , G06N3/08
Abstract: 本发明涉及异常检测技术领域,提供一种跨领域小样本异常检测方法、装置、电子设备及存储介质,其中方法包括:提取正常图像对应的图像内容知识的文本特征;基于测试图像的图像子块特征和正常图像的图像子块特征之间的匹配差异,确定测试图像的测试图像重建结果,基于测试图像重建结果对应的重建差异,确定测试图像中的低级语义异常检测结果;基于测试图像的第一子成分特征和正常图像的第二子成分特征,确定测试图像中的中级语义异常检测结果;基于文本特征与测试图像的图像整体特征,确定高级语义异常检测结果,基于低级、中级和高级语义异常检测结果,确定目标异常检测结果。本方法不需要使用大量样本进行训练,从而降低了异常检测训练的成本。
-
公开(公告)号:CN119046442A
公开(公告)日:2024-11-29
申请号:CN202411526272.5
申请日:2024-10-30
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F40/35 , G06N5/022 , G06F16/34
Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
-
公开(公告)号:CN117173530B
公开(公告)日:2024-02-13
申请号:CN202311447067.5
申请日:2023-11-02
Applicant: 中国科学院自动化研究所
IPC: G06V10/80 , G06N3/0464 , G06V10/22 , G06V10/20 , G06V10/26 , G06V10/774 , G06V10/82
Abstract: 本发明提供一种目标异常检测方法及装置,属于计算机视觉技术领域。方法包括:将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案。本发明提高异常检测的准确性,并可通过提问获取丰富的异常信息。
-
公开(公告)号:CN116403077B
公开(公告)日:2023-08-15
申请号:CN202310666476.8
申请日:2023-06-07
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V10/74 , G06V10/40 , G06V10/82 , G06F18/2433
Abstract: 本发明涉及计算机视觉和模式识别技术领域,提供一种异常检测模型训练方法、异常检测方法、装置及电子设备,该方法获取目标样本的异常图像样本的异常子块、正常图像样本的正常子块和所述正常图像样本对应的增强图像样本的增强子块;基于初始检测模型,分别对异常子块、正常子块和增强子块依次进行深度特征提取和语义特征提取,得到异常语义特征、正常深度特征、正常语义特征和增强语义特征;基于异常语义特征与正常语义特征之间的语义特征相似度,计算对比损失,基于正常深度特征、正常语义特征和增强语义特征,计算一致性增强损失;基于对比损失和一致性增强损失,对初始检测模型进行交替迭代训练,得到异常检测模型,可以提高模型的检测性能。
-
公开(公告)号:CN119046442B
公开(公告)日:2025-03-11
申请号:CN202411526272.5
申请日:2024-10-30
Applicant: 中国科学院自动化研究所
IPC: G06F16/3329 , G06F40/35 , G06N5/022 , G06F16/34
Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种长文档视觉问答方法、装置及电子设备,方法包括:获取长文档页面的多模态特征;为多模态特征配置预设数量的页面令牌,页面令牌用于存储长文档中各个页面的页面信息;根据每一页面令牌与文档问题的相关程度,为每一页面令牌分配权重;并根据分配权重后的页面令牌,获取长文档的文档信息;通过训练完成的多模态大语言模型,获取文档信息在文档问题下的文档答案。本发明通过采用上述方法,解决相关技术中处理多页的长文档场景时,视觉问答任务的处理效果不佳的问题。
-
公开(公告)号:CN119024971B
公开(公告)日:2025-02-28
申请号:CN202411517365.1
申请日:2024-10-29
Applicant: 中国科学院自动化研究所
IPC: G06F3/01 , G06F40/126 , G06N3/0455 , G06N3/084 , G06F18/214
Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种多人交互动作生成方法、装置及电子设备。方法包括:获取目标实例的初始运动序列和运动文本描述,目标实例为多人交互实例;将目标实例的初始运动序列加入高斯噪声,得到噪声化的初始运动序列;基于非目标实例的运动序列、空间控制条件和运动文本描述,训练扩散模型,得到训练后的扩散模型;将噪声化的初始运动序列和目标实例的运动文本描述作为训练后的扩散模型的去噪过程的输入,得到目标实例的运动动作和运动轨迹。本发明通过采用上述方法,解决相关技术中的多人交互动作生成方式,无法在保证个体实例动作合理性的同时,确保交互行为的准确性的问题。
-
公开(公告)号:CN119003741B
公开(公告)日:2024-12-27
申请号:CN202411465874.4
申请日:2024-10-21
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06N3/0455 , G06N3/084 , G06N5/04 , G06F18/213 , G06F18/22 , G06F18/25
Abstract: 本发明提供一种基于自我问答的可信多模态大模型推理方法及装置,涉及人工智能技术领域,方法包括:获取多模态数据,并进行特征提取得到对应的多模态令牌特征;获取针对多模态数据的提问问题,将提问问题与多模态令牌特征输入到多模态大模型中进行第一问答;并将得到的第一回答文本以及提示词输入到多模态大模型进行第二问答,得到第二回答文本,确定第一回答文本与第二回答文本的相似度得分,当相似度得分大于相似度阈值时,将第一回答文本作为提问问题的回答文本。通过本申请,克服大语言模型在进行问答时过于依赖问答知识库,且生成的回答文本准确性和可信度低的缺陷。
-
公开(公告)号:CN119024971A
公开(公告)日:2024-11-26
申请号:CN202411517365.1
申请日:2024-10-29
Applicant: 中国科学院自动化研究所
IPC: G06F3/01 , G06F40/126 , G06N3/0455 , G06N3/084 , G06F18/214
Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种多人交互动作生成方法、装置及电子设备。方法包括:获取目标实例的初始运动序列和运动文本描述,目标实例为多人交互实例;将目标实例的初始运动序列加入高斯噪声,得到噪声化的初始运动序列;基于非目标实例的运动序列、空间控制条件和运动文本描述,训练扩散模型,得到训练后的扩散模型;将噪声化的初始运动序列和目标实例的运动文本描述作为训练后的扩散模型的去噪过程的输入,得到目标实例的运动动作和运动轨迹。本发明通过采用上述方法,解决相关技术中的多人交互动作生成方式,无法在保证个体实例动作合理性的同时,确保交互行为的准确性的问题。
-
-
-
-
-
-
-
-
-