无监督的物体实例检测方法及装置

    公开(公告)号:CN114663347B

    公开(公告)日:2022-09-27

    申请号:CN202210116791.9

    申请日:2022-02-07

    Abstract: 本申请提供一种无监督的物体实例检测方法及装置。所述方法包括:将待检测图像输入训练好的深度神经网络模型,根据训练好的深度神经网络模型中的亲和度函数,获取待检测图像的各像素间的亲和度矩阵;根据亲和度矩阵,对待检测图像进行物体检测,获取待检测图像中的各物体实例;其中,亲和度函数用于确定像素点之间的亲和度,由视频帧序列中图像帧对应的目标深度图的目标场景流作为监督信号,输入深度神经网络模型中训练得到。本申请实施例提供的无监督的物体实例检测方法可以解决在复杂场景下的物体检测问题,提高复杂场景下的物体检测的准确性。

    基于大数据赋能和模型流的目标检测方法、系统及设备

    公开(公告)号:CN114708185A

    公开(公告)日:2022-07-05

    申请号:CN202111258992.4

    申请日:2021-10-28

    Abstract: 本发明属于计算机视觉及模式识别领域,具体涉及了一种基于大数据赋能和模型流的目标检测方法、系统及设备,旨在解决现有目标检测模型受限于训练数据导致模型性能不高,以及在不同应用场景下复用性差的问题。本发明包括:进行所有公开的目标检测数据集的整合,并以任一模型为基准搭建模型采样空间;一次训练中完成涵盖各种运行需求的动态超网;在当前场景中,通过类别的语义信息向量进行模型初始化及子模型筛选;通过当前场景数据进行子模型的预训练,最终获取的目标检测模型可进行当前场景待目标检测图像的目标检测。本发明在构建灵活的动态超网后,使用少量使用当前场景下的标注数据进行快速微调即可获得当前场景下的性能优异的目标检测模型。

    基于类别外部记忆的视频目标检测方法、系统、装置

    公开(公告)号:CN111723719B

    公开(公告)日:2021-08-13

    申请号:CN202010536900.3

    申请日:2020-06-12

    Abstract: 本发明属于领域,具体涉及了一种基于类别外部记忆的视频目标检测方法、系统、装置,旨在解决现有技术中当辅助帧数量较小时目标检测性能下降明显的问题。本发明包括:先根据训练视频信息通过自注意机制训练视频目标检测模型,再通过训练好的视频目标检测模型和自注意机制获得待测视频增强的实例特征,最后将增强后的实例特征输入通用目标检测网络的分类分支和边界框回归分支得到目标检测结果。本发明降低了现有技术中基于特征整合的视频目标检测方法对辅助帧数目的敏感性,使在辅助帧较少或没有辅助帧的情况下也能准确地进行目标检测。

    基于数据分布扩充的跨域自适应语义分割方法及系统

    公开(公告)号:CN113221902A

    公开(公告)日:2021-08-06

    申请号:CN202110511220.0

    申请日:2021-05-11

    Abstract: 本发明涉及一种基于数据分布扩充的跨域自适应语义分割方法及系统,所述跨域自适应语义分割方法包括:获取不同域训练数据集;分别对源域图像及目标域图像进行傅里叶变换,得到对应的源频域图像及目标频域图像;对源频域图像进行高频滤波,得到高频信息;对目标频域图像进行低频率波,得到低频信息;根据高频信息及低频信息,通过傅里叶反变换,得到转换图像;基于转换图像,对源域图像及目标域图像进行数据增强,得到源域扩充图像及目标域扩充图像;确定第一语义分割损失模型、第一对抗损失函数、第二对抗损失函数、语义一致性损失函数;确定第二语义分割损失模型;基于第二语义分割损失模型,可对待处理图像进行准确的语义分割,提高分割精度。

    基于自标注训练样本的三维目标检测方法、系统及装置

    公开(公告)号:CN112257605A

    公开(公告)日:2021-01-22

    申请号:CN202011146504.6

    申请日:2020-10-23

    Inventor: 张兆翔 张驰 杨振

    Abstract: 本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置,旨在解决真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题。本发明包括:通过训练好的模型进行输入图像序列的三维目标检测,其中,模型训练方法包括:向CARLA模拟器中嵌入高质量的模型;通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强;以三维目标检测器VoxelNet为基础,通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐,并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。

    基于人脸解析的表情编辑方法及装置

    公开(公告)号:CN109829959B

    公开(公告)日:2021-01-08

    申请号:CN201811593470.8

    申请日:2018-12-25

    Abstract: 本发明涉及计算机图形学技术领域,具体涉及一种基于人脸解析的表情编辑方法及装置,旨在解决如何在保持人物身份的前提下,更好地对无表情人脸进行表情编辑的技术问题,为此目的,本发明提供的基于人脸解析的表情编辑方法包括:基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码,获取无表情人脸图像和表情强度控制编码对应的有表情人脸解析图;基于预设的人脸表情编辑网络并且根据有表情人脸解析图和无表情人脸图像,获取目标表情图像。基于上述步骤,可以在保持人物身份信息的前提下,对无表情人脸进行不同强度和不同表情的编辑。

    基于双向交互网络的行人搜索方法、系统、装置

    公开(公告)号:CN111723728A

    公开(公告)日:2020-09-29

    申请号:CN202010557984.9

    申请日:2020-06-18

    Abstract: 本发明属于计算机视觉、模式识别领域,具体涉及一种基于双向交互网络的行人搜索方法、系统、装置,旨在解决边界框外场景信息对行人特征的影响,导致行人搜索准确度较低的问题。本系统方法包括:获取输入视频中第t帧图像,作为输入图像;对输入图像进行归一化,并通过预训练的行人搜索模型获取待搜索行人目标的搜索结果;行人搜索模型基于残差网络构建,并在残差网络的分类回归层中增加新的分类层,用于获取行人目标的身份分类概率。本发明提高了行人搜索的准确度。

    基于视听多模态的舞蹈生成方法、系统、装置

    公开(公告)号:CN111711868A

    公开(公告)日:2020-09-25

    申请号:CN202010595530.0

    申请日:2020-06-24

    Abstract: 本发明属于计算机视觉、视听任务领域,具体涉及一种基于视听多模态的舞蹈生成方法、系统、装置,旨在解决现有的舞蹈生成方法忽略了骨架信息关键点之间的连接关系,导致生成的舞蹈质量较差的问题。本系统方法包括:获取音频信息序列、2D舞蹈骨架信息,将2D舞蹈骨架信息作为第一信息;将第一信息转换为图像,并结合第一信息、音频信息序列中第t帧的音频信息,通过舞蹈生成模型生成新的2D舞蹈骨架信息,作为第二信息;判断t是否等于音频信息序列的长度,若否,令t=t+1,将第二信息作为第一信息,循环生成第二信息;否则以第一信息顺次转换的图像作为舞蹈片段输出。本发明提高了舞蹈生成的质量。

    视觉SLAM方法、装置、系统、电子设备及存储介质

    公开(公告)号:CN118887644B

    公开(公告)日:2025-05-13

    申请号:CN202410801779.0

    申请日:2024-06-20

    Abstract: 本发明提供一种视觉SLAM方法、装置、系统、电子设备及存储介质,该方法包括:识别目标移动体当前帧的原始全景环视鸟瞰图像中的感知目标,获得目标移动体当前帧的目标全景环视鸟瞰图像,对目标全景环视鸟瞰图像进行语义匹配和非刚性拟合,获得目标全景环视鸟瞰图像中识别到的感知目标的矢量化实例,基于目标移动体当前帧的原始位姿数据对矢量化实例进行位姿修正后,基于位姿修正后的矢量化实例判断当前帧是否为关键帧,在当前帧为关键帧的情况下,基于上述矢量化实例对目标移动体的全局矢量地图进行更新。本发明提供的视觉SLAM方法、装置、系统、电子设备及存储介质,能提高视觉SLAM方法的在自主泊车场景下的精度稳定性。

    用于场景重建和渲染的图像处理方法、装置及设备

    公开(公告)号:CN119516076A

    公开(公告)日:2025-02-25

    申请号:CN202411607289.3

    申请日:2024-11-12

    Abstract: 本发明提供了一种用于场景重建和渲染的图像处理方法、装置及设备。方法包括:初始化每张待重建场景图像对应的稀疏点云,得到多个初始高斯面元;基于初始高斯面元渲染得到的逆深度图、渲染场景图像以及法向量图,对每个初始高斯面元进行优化,得到多个第一目标高斯面元;基于第一目标高斯面元的重要性,确定第二目标高斯面元,重要性是基于多个子模型以及与每个子模型匹配的目标待重建场景图像确定的,多个子模型是对多个第一目标高斯面元进行网格划分得到的,与每个子模型匹配的目标待重建场景图像是基于待重建场景图像的位姿以及子模型的渲染结果确定的;基于网格的空间范围,确定用于渲染重建场景图像的第三目标高斯面元。

Patent Agency Ranking