一种基于单张RGB图像的双流多尺度手部姿态估计方法

    公开(公告)号:CN113052030B

    公开(公告)日:2024-09-24

    申请号:CN202110273215.0

    申请日:2021-03-11

    摘要: 本发明涉及一种基于单张RGB图像的双流多尺度手部姿态估计方法,用于解决单张RGB图像中自遮挡、近邻关节预测歧义问题。本发明是以RGB图像作为输入,利用深度神经网络提取单张图像的特征并得到手部关节2D姿态初始坐标,利用双分支网络进行2D姿态估计,得到两路手部关节2D姿态坐标;对于两路2D姿态坐标,利用双分支的多尺度语义图U‑Net网络分别估计两路手部关节的3D坐标,然后再将两路3D坐标加和求平均,最终输出手部关节的3D坐标。本发明基于手的不同拓扑结构,更好的利用了关节之间的信息,最终实现高精度的手部姿态估计。

    一种基于注意力的零样本图像分类方法

    公开(公告)号:CN111967513B

    公开(公告)日:2024-05-31

    申请号:CN202010809547.1

    申请日:2020-08-12

    摘要: 本发明涉及一种基于注意力的零样本图像分类方法,包括特征提取阶段和分类阶段,特征提取阶段包括:利用CNN对训练集图像提取特征,特征经过多个网络分支得到语义向量每一维的表示,按序拼接每一维得到最终的语义向量表示。每个分支的结构相同,特征通过两个全连接层得到每个样本特征的注意力向量,将该注意力向量与特征逐元素再通过两个全连接层得到一个属性值。本发明将上述网络命名为面向零样本图像分类的基于注意力的属性学习网络AALN。分类阶段:将待分类的图像通过CNN提取特征,通过AALN计算每个分支的输出并拼接得到最终的语义向量,最后基于与未知类的语义向量的余弦相似度进行分类。

    一种用于Affordance推理的深度网络构建方法

    公开(公告)号:CN111709275B

    公开(公告)日:2024-02-06

    申请号:CN202010350248.6

    申请日:2020-04-28

    摘要: 公开一种用于Affordance推理的深度网络构建方法,其能够描述物体间影响的不对称性,考虑不同邻居节点的差异性影响的问题,更好地刻画场景上下文中物体之间的关系。该方法包括两个部分:视觉特征提取部分和Affordance推理部分;Affordance推理部分采用门控图注意力网络(Gated Graph Attention Neural Network,GGANN),以图结构作为上下文的载体,基于对象级别的上下文信息构建双向图,对环境中物体提取视觉特征并与类别信息融合作为每个图节点的表示,图节点之间建立双向边,并引入图注意力机制更新边的权值以描述不同邻居节点间的差异性影响。

    一种室内场景RGB-D图像的语义标注方法

    公开(公告)号:CN110751153B

    公开(公告)日:2023-08-01

    申请号:CN201910886599.6

    申请日:2019-09-19

    IPC分类号: G06V10/26 G06V10/774

    摘要: 一种室内场景RGB‑D图像的语义标注方法,其能够使室内场景语义标注方法中感受野不局限于超像素,构建超像素组的语义特征表示并进一步基于度量学习对超像素组特征进行优化,从而提高室内场景理解的准确率。该语义标注方法,包括:(1)采用gPb/UCM算法对RGB‑D室内场景图像进行超像素分割;(2)超像素特征提取:执行Patch特征计算、超像素特征表示;(3)超像素组特征提取:执行实例超像素组及其特征提取、类超像素组及其特征提取;(4)超像素组特征向量化:定义高斯分量之间的常数距离、执行实例超像素组特征向量化、执行类超像素组特征向量化;(5)度量学习:学习优化矩阵L、基于优化矩阵L标注测试样本。

    一种单幅图像的三维模型重建方法

    公开(公告)号:CN110544297B

    公开(公告)日:2023-06-20

    申请号:CN201910722716.5

    申请日:2019-08-06

    摘要: 公开一种单幅图像的三维模型重建方法,其不需要人工设计复杂的特征算法,避免了复杂的相机校准及精细的流程设计,并具备了通过学习所见拓展所知,重建所未知的能力;改进了预测不完整、噪声多,训练时间长的问题;不仅能够准确地重建图像,同时还能避免噪声的引入。该方法包括:(1)输入深度图像;(2)转换为2.5D体素网格;(3)在生成器部分,首先将输入的单幅深度图像编码为一个潜在向量,然后利用注意力机制学习一个基于注意力的潜在向量,再将注意力的潜在变量解码生成3D重建形状;(4)在判别器部分,在3D重建形状上实施重构判别器,在可见部分形状上实施掩模判别器。

    一种基于空间骨架信息的手绘草图三维模型重建方法

    公开(公告)号:CN116188690A

    公开(公告)日:2023-05-30

    申请号:CN202310163381.4

    申请日:2023-02-24

    摘要: 本发明公开了一种基于空间骨架信息的手绘草图三维模型重建方法,提出空间骨架引导编码器、域自适应编码器和自注意力解码器,通过空间骨架编码器提取草图的骨架特征,骨架信息作为一种先验知识来提供重建完整三维模型所需的辅助信息,域自适应编码器将合成草图学习到的知识迁移到手绘草图中,基于注意力的解码器消除歧义性,本方法提升了单张手绘草图的三维重建精度。自注意力机制使得模型区分轮廓相似度较高的草图输入;相对于其他技术使用判别器与梯度反转层的域自适应方法,其训练的值函数相当于最小化两个分布之间的Jensen‑Shannon散度,因为最小化的散度对于生成器参数来说可能不是连续的,而本发明的域自适应约束函数可被认为处处可微,训练更加稳定。

    一种基于超像素深度网络的室内场景语义分割方法

    公开(公告)号:CN110517270B

    公开(公告)日:2022-04-12

    申请号:CN201910642478.7

    申请日:2019-07-16

    摘要: 一种基于超像素深度网络的室内场景语义分割方法,能够缓解像素作为深度网络计算单元带来的图像语义分割边界不清晰以及计算量大的问题,同时打破现有深度网络方法无法接受无序的超像素集合作为输入的局限。该方法包括:(1)对RGB颜色图像使用简单线性迭代聚类分割算法SLIC得到超像素集合;(2)计算每一个超像素的最小包围矩形;(3)基于超像素深度网络RCN提取图像的颜色特征与深度特征;(4)用每一个超像素的最小包围矩形,在颜色与深度的多层次特征图上进行裁剪和重塑操作,得到每一个超像素颜色多层次特征表示与深度多层次特征表示;(5)融合超像素颜色多层次特征与深度多层次特征得到超像素特征,对超像素进行分类。

    基于交互任务知识图谱的细粒度工具推荐方法及装置

    公开(公告)号:CN114077692A

    公开(公告)日:2022-02-22

    申请号:CN202111310620.1

    申请日:2021-11-04

    摘要: 基于交互任务知识图谱的细粒度工具推荐方法及装置,能够很好地针对细粒度任务进行工具推荐,并且在最优工具不存在时,可以有效地检索到替代工具。方法包括:(1)建立交互任务知识图谱ITKG来定义交互任务、工具及被操作物体的多粒度语义;(2)通过交互工具推荐网络IT‑Net推荐细粒度任务适配的工具;(3)通过约束工具和被操作物体的粗粒度语义预测损失loss,通过细粒度语义预测loss,使IT‑Net学习到工具和被操作物体的共同特征和专有特征;(4)通过约束适配细粒度任务的工具和被操作物体的嵌入特征距离小于不适配细粒度任务的工具和被操作物体的嵌入特征距离,使IT‑Net学习适配细粒度任务的工具和被操作物体的特征关系。

    一种基于排序与语义一致性约束的实例分割改进方法

    公开(公告)号:CN113409327A

    公开(公告)日:2021-09-17

    申请号:CN202110608265.X

    申请日:2021-06-01

    摘要: 本发明提出一种基于排序与语义一致性约束的实例分割改进方法,针对如何提高分割实例的掩膜质量问题,主要是提出面向实例分割网络的排序损失与语义一致性损失,前者优化子区域的选择结果,后者优化子区域的语义分割结果。实例分割属于计算机视觉领域的重要任务,既要求区分具体实例,又要求完成分类与定位任务。当前的实例分割方法,存在分割实例的掩膜质量不高的问题,这对很多实际任务有不可忽略的负面影响。提出的排序损失与语义一致性损失,可以应用于目前已有的任意两阶段与单阶段实例分割框架中。在公开数据集上进行的实验表明,增加排序损失与语义一致性损失后,深度网络的实例分割效果均取得一定程度的提升,分割实例的掩膜质量有所改善。