一种基于条件双分支扩散模型的人体姿态估计方法

    公开(公告)号:CN118968552A

    公开(公告)日:2024-11-15

    申请号:CN202411014083.X

    申请日:2024-07-26

    摘要: 本发明公开了一种基于条件双分支扩散模型的三维人体姿态估计方法,首先从现有的2D姿势检测器得到2D姿态的热图,以及从训练集预测关节点的深度分布,得到初始化不确定3D姿势。接下来,以该不确定3D姿态为双分支扩散模型提升网络的输入,以关节级语义信息作为条件,通过特征融合模块来进行特征融合,通过双分支网络的GCN网络和注意力机制分别对姿态关节特征进行局部和全局的建模,然后经过双分支交互模块进行全局和局部信息之间的交互,通过多次迭代,得到高准确性的3D姿态。本发明提高了基于单帧图像的三维人体姿态估计的精度。

    一种无监督领域自适应语义分割方法

    公开(公告)号:CN112699892B

    公开(公告)日:2024-11-08

    申请号:CN202110026447.6

    申请日:2021-01-08

    摘要: 本发明公开了一种无监督领域自适应语义分割方法,基于源域图像训练神经网络;利用已训练网络计算目标域图像伪标签;利用源域图像和有伪标签的目标域图像重训练网络,进一步提高伪标签准确性,优化网络的泛化能力。本方法通过利用自训练方法,利用已训练网络提取高置信度的目标域伪标签,弥补了目标域缺少监督信息的缺点,与其他方法相比,丰富了目标域数据的信息,提升网络对目标域数据的学习能力;本方法着重考虑了基于类别的域间差异,针对源域和目标域的预测进行类相关性度量,约束两个域的类相关性一致,减小了两个域类级别的域间差异,提高了网络的泛化能力,本发明的性能优于其他无监督领域自适应语义分割方法。

    一种基于视觉语言模型的人物交互检测方法

    公开(公告)号:CN118212399A

    公开(公告)日:2024-06-18

    申请号:CN202410337863.1

    申请日:2024-03-24

    摘要: 本发明公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识,以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络,采用两级融合策略,将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合,以此产生了信息量丰富的交互特征用于分类。同时,利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器,以此进行额外的分类。对两种分类结果进行决策级融合,以此开发了视觉语言模型用于人物交互检测的潜力。

    一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法

    公开(公告)号:CN113239824B

    公开(公告)日:2024-04-05

    申请号:CN202110544122.7

    申请日:2021-05-19

    摘要: 本发明涉及一种基于3D‑Ghost模块的多模态训练单模态测试的动态手势识别方法,用于解决多模态训练单模态测试的动态手势识别问题,具体利用RGB数据和深度数据训练整体网络,整体网络采用并行双通道协作学习的结构,旨在通过不同模态网络之间传递知识来改善学习过程,通道m用于通过RGB数据识别动态手势,通道n用于通过深度数据识别动态手势;训练完成后,将RGB数据输入通道m进行动态手势识别,或者将深度数据输入通道n进行动态手势识别;其中通道采用I3D网络并对其进行改进,改进之处在于增加了注意力模块,部分3D卷积层替换为3D‑Ghost模块,对所有Inception‑V1子模块进行改进。

    一种基于零样本学习的人体行为识别方法

    公开(公告)号:CN111126218A

    公开(公告)日:2020-05-08

    申请号:CN201911288489.6

    申请日:2019-12-12

    摘要: 公开一种基于零样本学习的人体行为识别方法,其提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。该方法包括:(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。

    一种超像素级别的室内场景语义标注方法

    公开(公告)号:CN110096961A

    公开(公告)日:2019-08-06

    申请号:CN201910269599.1

    申请日:2019-04-04

    IPC分类号: G06K9/00 G06K9/62

    摘要: 公开一种超像素级别的室内场景语义标注方法,其能够避免深度网络应用于像素级室内场景标注计算成本巨大的问题,而且能够使深度网络接受超像素集合作为输入。这种超像素级别的室内场景语义标注方法,包括以下步骤:(1)使用简单线性迭代聚类分割算法对室内场景彩色图像进行超像素分割;(2)结合室内场景深度图像对步骤(1)获得的超像素,提取超像素核描述子特征(初级特征);(3)构建超像素的邻域;(4)构建超像素深度网络SuperPixelNet,学习超像素多模态特征;对待标注超像素,结合该超像素及其邻域超像素的多模态特征,对室内场景RGB-D图像给出超像素级语义标注。

    一种动态手势识别方法
    10.
    发明授权

    公开(公告)号:CN105205475B

    公开(公告)日:2019-02-05

    申请号:CN201510684375.9

    申请日:2015-10-20

    IPC分类号: G06K9/00 G06N3/08

    摘要: 本发明公开了一种动态手势识别方法,其能够提高动态手势识别的准确率。该方法包括步骤:(1)对动态手势数据进行预处理,基于间隔取样方法扩展动态手势数据,基于canny边缘检测算子计算扩展后扩展动态手势数据的RGB三个通道的边缘,生成彩色边缘图像;(2)基于卷积神经网络模型提取手势特征序列;(3)通过步骤(2)提取的手势特征序列和手部方向特征,进行隐马尔科夫模型HMM训练,得到最接近手势样本的HMM。