一种基于改进三边滤波的Kinect深度图像修复方法

    公开(公告)号:CN104809698A

    公开(公告)日:2015-07-29

    申请号:CN201510117532.8

    申请日:2015-03-18

    Abstract: 本发明属于深度图像修复技术领域,具体涉及对kinect深度图像的基于改进三边滤波的Kinect深度图像修复方法。本发明包括:利用Kinect同步获取深度图与彩色图;对彩色图和深度图进行对齐;提取深度图边缘信息;提取彩色图边缘信息;去除彩色图中的非边界纹理信息;用区域生长方法,在深度图中找出深度值错误的像素点并去除该点的错误深度值;用基于色差与结构相似度系数的改进三边滤波方法对深度图空洞区域进行填充修复。该方法针对kinect深度图像具有良好的空洞填充效果,能够较好地保持深度图边缘信息。

    基于注意力译码结构的2.5D单目场景流估计方法

    公开(公告)号:CN115908505A

    公开(公告)日:2023-04-04

    申请号:CN202211468058.X

    申请日:2022-11-22

    Abstract: 本发明提供一种基于注意力译码结构的2.5D单目场景流估计方法,包括以下步骤:S1构建相机姿态估计子网络与共享金字塔特征编码器;S2构建并行的基于空洞自注意力的深度译码器与基于非局部交叉帧注意力的光流译码器;S3构建总体网络损失函数;S4输入单目图像序列用自监督的形式对网络进行端到端的训练;S5输入连续两帧图像对模型进行测试时,可得到2.5D场景流的两个分量:光流和深度。输入单张图像对模型进行测试时,可得到深度估计结果。本发明利用基于注意力的译码结构对2.5D单目场景流进行估计,其中在译码结构引入注意力来强化特征表达能力和像素相关的计算,通过上述设计来达到提升场景流估计精度的目的。

    基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

    公开(公告)号:CN115731280A

    公开(公告)日:2023-03-03

    申请号:CN202211467771.2

    申请日:2022-11-22

    Abstract: 本发明提供一种基于Swin‑Transformer和CNN并行网络的自监督单目深度估计方法,目的在于提出一种基于Swin‑Transformer和卷积神经网络(CNN)并行网络的自监督单目深度估计方法。本发明将Swin‑Transformer和CNN同时用于特征提取,并将提取的特征进行融合,可以使网络在建立长程相关性和保留空间结构信息之间进行平衡,强化网络学习特征的能力,并且结合本发明提出的逐尺度自蒸馏损失,进行网络的自监督训练,进而提升自监督单目深度估计精度。

    一种基于生成对抗网络的目标检测方法

    公开(公告)号:CN109543740B

    公开(公告)日:2022-07-15

    申请号:CN201811363392.2

    申请日:2018-11-14

    Abstract: 本发明提供一种基于生成对抗网络的目标检测方法,设计生成器,根据类别标签生成各类样本,设计代理器,检测生成器的数据,提供伪真值,并将代理器生成的数据应用于目标检测器的训练,设计目标检测器,判断生成数据是否有利于目标检测精度的提升,设计对抗器,在训练阶段,判别数据是来源于真实数据还是生成数据,生成器与判别器交替训练,在测试阶段,待检测数据直接输入目标检测器,得到检测结果。本发明生成网络生成的样本与真实样本结合可丰富训练数据,提高检测精度,目标检测网络对生成网络提供反馈,使生成的样本更加真实,代理器生成的数据直接应用于目标检测器的训练,无需耗费大量的人力物力进行标注,本发明结构简单,易于部署。

    一种无监督可见光与红外双向跨模态行人搜索方法

    公开(公告)号:CN114154017A

    公开(公告)日:2022-03-08

    申请号:CN202111423613.2

    申请日:2021-11-26

    Inventor: 项学智 吕宁

    Abstract: 本发明属于计算机视觉技术领域,具体涉及一种无监督可见光与红外双向跨模态行人搜索方法。本发明设计了模态自适应动态视觉Transformer网络,通过同一网络同时处理可见光和红外两种不同模态的图像,满足模态差异性和一致性的要求;设计了查询引导的无监督行人建议生成模块,并利用基于对比学习的双向跨模态匹配损失函数,实现了无监督的可见光‑红外双向跨模态行人搜索。本发明解决了现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,能够实现可见光‑红外双向跨模态行人搜索,即,给定可见光行人图像搜索到出现对应行人的红外场景图像并获取其所在位置,给定红外行人图像搜索到出现对应行人的可见光场景图像并获取其所在位置。

    一种基于卷积神经网络的稠密光流估计方法

    公开(公告)号:CN107993255B

    公开(公告)日:2021-11-19

    申请号:CN201711220774.5

    申请日:2017-11-29

    Abstract: 本发明属于计算机视觉领域,提供了一种基于卷积神经网络的稠密光流估计方法,以解决现有技术计算时间长,计算量大,计算效率不高的问题,包含如下步骤:(1)提取运动图像信息:构建全卷积网络架构,然后在输入层输入两幅通道数都为C的图像,从卷积层8输出光流_6;(2)生成光流:构建稠密光流生成模型。光流_6输入反卷积层1,反卷积层2输出光流_5,反卷积层3输出光流_4,反卷积层4输出光流_3,反卷积层5输出光流_2,反卷积层6输出光流_1;(3)模型训练:用最终损失函数进行训练;(4)光流估计:从全卷积网络架构的输入层输入图像对,输出最终预测的光流。本发明能够有效地利用先验知识,模型可以预先训练,大大减少了计算时间。

    基于6自由度场景流聚类的3D运动目标检测方法

    公开(公告)号:CN106952292B

    公开(公告)日:2020-01-31

    申请号:CN201710151290.3

    申请日:2017-03-14

    Abstract: 本发明提供的是一种基于6自由度场景流聚类的3D运动目标检测方法。利用深度相机获取场景的对齐的彩色图像和深度图像;构建6自由度场景流估计能量泛函;能量泛函的最优求解;根据场景流的定义,利用旋转向量和平移向量计算出场景流;根据场景流信息进行初步分析,确定移动目标的大体数目;根据场景流提取运动特征信息,获取每个点的特征向量;利用ISODATA算法对特征向量进行聚类分析,提取出运动目标。本发明利用邻域约束结合亮度恒常、深度恒常约束构建数据项;利用全变分平滑对旋转向量和平移向量进行平滑约束。完成场景流求解后,利用ISODATA算法对场景流进行聚类分析,提取出3D运动目标。

Patent Agency Ranking