-
公开(公告)号:CN118968552A
公开(公告)日:2024-11-15
申请号:CN202411014083.X
申请日:2024-07-26
申请人: 北京工业大学
IPC分类号: G06V40/10 , G06V10/766 , G06V10/80 , G06V10/40
摘要: 本发明公开了一种基于条件双分支扩散模型的三维人体姿态估计方法,首先从现有的2D姿势检测器得到2D姿态的热图,以及从训练集预测关节点的深度分布,得到初始化不确定3D姿势。接下来,以该不确定3D姿态为双分支扩散模型提升网络的输入,以关节级语义信息作为条件,通过特征融合模块来进行特征融合,通过双分支网络的GCN网络和注意力机制分别对姿态关节特征进行局部和全局的建模,然后经过双分支交互模块进行全局和局部信息之间的交互,通过多次迭代,得到高准确性的3D姿态。本发明提高了基于单帧图像的三维人体姿态估计的精度。
-
公开(公告)号:CN112699892B
公开(公告)日:2024-11-08
申请号:CN202110026447.6
申请日:2021-01-08
申请人: 北京工业大学
IPC分类号: G06V20/70 , G06V10/26 , G06V10/82 , G06V10/44 , G06V10/74 , G06V10/774 , G06N3/088 , G06N3/0895 , G06N3/09 , G06N3/084 , G06N3/0464
摘要: 本发明公开了一种无监督领域自适应语义分割方法,基于源域图像训练神经网络;利用已训练网络计算目标域图像伪标签;利用源域图像和有伪标签的目标域图像重训练网络,进一步提高伪标签准确性,优化网络的泛化能力。本方法通过利用自训练方法,利用已训练网络提取高置信度的目标域伪标签,弥补了目标域缺少监督信息的缺点,与其他方法相比,丰富了目标域数据的信息,提升网络对目标域数据的学习能力;本方法着重考虑了基于类别的域间差异,针对源域和目标域的预测进行类相关性度量,约束两个域的类相关性一致,减小了两个域类级别的域间差异,提高了网络的泛化能力,本发明的性能优于其他无监督领域自适应语义分割方法。
-
公开(公告)号:CN118446292A
公开(公告)日:2024-08-06
申请号:CN202410450152.5
申请日:2024-04-15
申请人: 北京工业大学
IPC分类号: G06N5/022 , G06N5/04 , G06V40/20 , G06V20/40 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/049
摘要: 家居行为的知识图谱构建方法、模型、检测装置及方法,能够解决室内场景中对复杂人类行为识别的问题,更深入地了解行为之间的潜在关系,更精确地建模行为之间的上下文关系,提高行为检测的准确性。方法包括:(1)从多个语义层次对行为进行描述,构建HAhb‑KG;(2)对图谱中节点信息表达的增强以及对节点关系进行建模,利用不同模态知识增强节点信息表达,并利用共现概率建模行为间关系;(3)使用人类日常活动数据集Charades进行HAhb‑KG的原型设计,按照步骤(1)‑(2),得到具有244个节点和15651条边的HAhb‑KG。
-
公开(公告)号:CN118212399A
公开(公告)日:2024-06-18
申请号:CN202410337863.1
申请日:2024-03-24
申请人: 北京工业大学
IPC分类号: G06V10/25 , G06V10/764 , G06V10/80 , G06F16/35 , G06N3/045 , G06N3/0455 , G06N3/0464 , G06V10/82
摘要: 本发明公开了一种基于视觉语言模型的人物交互检测方法分为人物对构建、双分支知识增强、基于双分支结构的两级融合三个阶段。通过提出独立的语义挖掘的解码器来从视觉语言模型中检索动作相关的语义知识,以此来丰富交互特征表示。基于语义挖掘的解码器和空间引导的解码器形成的双分支网络,采用两级融合策略,将经过空间知识增强的人物对查询和视觉语言知识增强的人物对查询进行特征级融合,以此产生了信息量丰富的交互特征用于分类。同时,利用视觉语言模型中的文本先验来产生基于文本嵌入的分类器,以此进行额外的分类。对两种分类结果进行决策级融合,以此开发了视觉语言模型用于人物交互检测的潜力。
-
公开(公告)号:CN113239824B
公开(公告)日:2024-04-05
申请号:CN202110544122.7
申请日:2021-05-19
申请人: 北京工业大学
IPC分类号: G06V40/20 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/08
摘要: 本发明涉及一种基于3D‑Ghost模块的多模态训练单模态测试的动态手势识别方法,用于解决多模态训练单模态测试的动态手势识别问题,具体利用RGB数据和深度数据训练整体网络,整体网络采用并行双通道协作学习的结构,旨在通过不同模态网络之间传递知识来改善学习过程,通道m用于通过RGB数据识别动态手势,通道n用于通过深度数据识别动态手势;训练完成后,将RGB数据输入通道m进行动态手势识别,或者将深度数据输入通道n进行动态手势识别;其中通道采用I3D网络并对其进行改进,改进之处在于增加了注意力模块,部分3D卷积层替换为3D‑Ghost模块,对所有Inception‑V1子模块进行改进。
-
公开(公告)号:CN109993825B
公开(公告)日:2023-06-20
申请号:CN201910179121.X
申请日:2019-03-11
申请人: 北京工业大学
IPC分类号: G06T17/00 , G06N3/0475 , G06N3/094 , G06N3/0464 , G06N3/0455
摘要: 公开一种基于深度学习的三维重建方法,该方法包括:(1)将输入图像被约束的潜在向量重建出目标完整三维形状,学习部分和完整三维形状之间的映射,然后实现单幅深度图像的三维重建;(2)学习三维真实对象与重建对象之间的中间特征表示,从而获得步骤(1)中的目标潜在变量;(3)利用极限学习机将步骤(1)中预测的体素浮动值变换为二进制值,完成高精度重建。
-
公开(公告)号:CN110543836B
公开(公告)日:2022-05-10
申请号:CN201910759439.5
申请日:2019-08-16
申请人: 北京工业大学
IPC分类号: G06V20/00 , G06V10/40 , G06V10/50 , G06V10/56 , G06V10/762 , G06V10/764 , G06K9/62
摘要: 公开一种面向彩色图像的车辆检测方法,其对所要检测的物体的外观描述能力强、适应能力强、需要的训练样本适度、时间消耗低。该方法包括以下步骤:(1)通过车辆检测的特征设计和分层稀疏‑稠密字典集合建模,为车辆类别、非车辆类别构建具有类别判别能力的字典集合;(2)滑动窗口扫描与窗口特征提取;基于稀疏‑稠密字典集合的窗口分类;基于核密度估计非极大抑制的重复检测框去除以过滤高度重叠的检测结果。
-
公开(公告)号:CN111126218A
公开(公告)日:2020-05-08
申请号:CN201911288489.6
申请日:2019-12-12
申请人: 北京工业大学
摘要: 公开一种基于零样本学习的人体行为识别方法,其提高了所训练分类器的分类性能和准确率,推进了人体行为类别自动标注目标的实现。该方法包括:(1)基于动作类与动作关联物体构造知识图谱,并通过基于注意力机制的图卷积网络AMGCN动态更新其关系,旨在更好地描述图中节点的关系;(2)学习基于梯度惩罚和循环一致性约束的生成对抗网络WGAN-GCC,使得学习的生成器能够更好地生成未知类特征;(3)将图卷积网络和生成对抗网络两个网络结合为双流深度神经网络,使得训练的分类器更具判别性。
-
公开(公告)号:CN110096961A
公开(公告)日:2019-08-06
申请号:CN201910269599.1
申请日:2019-04-04
申请人: 北京工业大学
摘要: 公开一种超像素级别的室内场景语义标注方法,其能够避免深度网络应用于像素级室内场景标注计算成本巨大的问题,而且能够使深度网络接受超像素集合作为输入。这种超像素级别的室内场景语义标注方法,包括以下步骤:(1)使用简单线性迭代聚类分割算法对室内场景彩色图像进行超像素分割;(2)结合室内场景深度图像对步骤(1)获得的超像素,提取超像素核描述子特征(初级特征);(3)构建超像素的邻域;(4)构建超像素深度网络SuperPixelNet,学习超像素多模态特征;对待标注超像素,结合该超像素及其邻域超像素的多模态特征,对室内场景RGB-D图像给出超像素级语义标注。
-
公开(公告)号:CN105205475B
公开(公告)日:2019-02-05
申请号:CN201510684375.9
申请日:2015-10-20
申请人: 北京工业大学
摘要: 本发明公开了一种动态手势识别方法,其能够提高动态手势识别的准确率。该方法包括步骤:(1)对动态手势数据进行预处理,基于间隔取样方法扩展动态手势数据,基于canny边缘检测算子计算扩展后扩展动态手势数据的RGB三个通道的边缘,生成彩色边缘图像;(2)基于卷积神经网络模型提取手势特征序列;(3)通过步骤(2)提取的手势特征序列和手部方向特征,进行隐马尔科夫模型HMM训练,得到最接近手势样本的HMM。
-
-
-
-
-
-
-
-
-