-
公开(公告)号:CN115131820A
公开(公告)日:2022-09-30
申请号:CN202210658293.7
申请日:2022-06-10
Applicant: 杭州海康威视数字技术股份有限公司
Abstract: 本申请实施例公开了一种端到端多人姿态估计方法和装置。本申请可以将已获得的原始图像对应的降采样特征图输入至视觉特征编码器,以得到多尺度融合特征,然后将多尺度融合特征输入至姿态解码器,从多尺度融合特征中解码出包含候选姿态的姿态信息,然后将姿态信息、以及多尺度融合特征输入至关节点解码器,实现对候选姿态中的关节点的微调以得到目标姿态。本方案不需要将多人姿态估计先转换为单人姿态估计,降低了多人姿态估计的计算量,以及本申请提供的方案不需要单独设置的需要先验性信息的图神经网络对姿态估计的结果进行精调,提高了姿态估计的效率,以及由于本方案姿态解码器和关节点解码器可以通过自学习实现端到端的优化。
-
公开(公告)号:CN115471707A
公开(公告)日:2022-12-13
申请号:CN202211177495.6
申请日:2022-09-26
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06V10/40 , G06N3/08 , G06N3/04
Abstract: 本申请实施例提供一种物体感知方法、装置及电子设备。在本实施例中,通过目标物体感知模型从待检测图像中划分出候选对象区域并输出候选对象区域对应的视觉特征(非文本特征)、以及大规模视觉语言预训练模型输出的各候选类别(预先设定好的类别)对应的文本特征,来确定候选对象区域中候选对象所属的目标类别,实现了基于大规模视觉语言预训练实现物体感知;基于如上描述的大规模视觉语言预训练模型输出的各候选类别对应的文本特征,这相当于借助大规模视觉语言预训练模型的先验知识(预先设定好的候选类别对应的文本特征),并结合大规模视觉语言预训练模型超大范围的感知能力,提高了最终物体感知结果(也即候选对象所属的目标类别)的准确度。
-
公开(公告)号:CN117058458A
公开(公告)日:2023-11-14
申请号:CN202311102196.0
申请日:2023-08-29
Applicant: 杭州海康威视数字技术股份有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/74
Abstract: 本申请实施例提供了图像分类模型训练方法、图像分类方法、装置及电子设备,电子设备获取多个图像集,将类别文本输入文本编码器,获得文本特征向量,作为图像语义向量标签,将样本图像输入初始图像分类模型,提取预测图像特征向量,基于预测图像特征向量与图像语义向量标签的差异,对初始图像分类模型训练,得到图像分类模型。由于文本特征向量根据类别文本的语义确定,因此所表达语义相近的类别文本对应的文本特征向量在特征空间中距离接近,反之语义不同的类别文本对应的文本特征向量在特征空间中相互远离,从而无需人工分析不同类别间的关系。由于采用多个图像集训练一个模型,而不需要分别训练多个模型,可以提高模型训练效率,降低资源消耗。
-
-