一种融合多模态信息的单目深度估计方法

    公开(公告)号:CN114596474B

    公开(公告)日:2024-07-19

    申请号:CN202210185451.1

    申请日:2022-02-16

    Inventor: 马伟 严武斌

    Abstract: 本发明涉及一种融合多模态信息的单目深度估计方法。首先输入单张RGB图像,通过常规主干网络(如ResNet)提取特征后再经过并列的水平和竖直方向上的全局池化算子,跨通道的1x1卷积,多尺度的空洞卷积以及语义分割预测模块。至此,我们得到了两种不同模态的特征图D和S(深度和语义模态)。将S中每一个像素分别隶属于特定语义类别的概率分布向量与D中的深度表征向量相乘,得到多模态融合的相似度矩阵,最后再与特征图D做残差连接得到最后的输出特征图F。除此以外,我们更是重新设计了一种损失函数来适配和训练我们的深度神经网络模型。和与现有方法相比,本发明更能反映场景中不同物体类别的轮廓与更高的深度估计精度。

    一种基于非限定环境下所拍摄照片生成证件照的方法

    公开(公告)号:CN113870176B

    公开(公告)日:2024-06-28

    申请号:CN202110898874.3

    申请日:2021-07-29

    Abstract: 一种基于非限定环境下所拍摄照片生成证件照的方法属于计算机视觉和图像处理等交叉领域。首先输入一张自拍照,通过神经网络检测模型检测图像中人物的数量并获取主体人的包围框。如果图像中只有一个人,则利用抠图模型直接进行抠图,获得前景图像与前景不透明度图像;如果检测到有多个人,则通过人物实例分割、图像修复算法去除图像中的其他人物,再通过抠图模型,对去除了其他人物的图像进行抠图,得到主体人物的前景图像与前景不透明度图像。检测前景图像中人脸边界框,通过人脸边界框,对前景图像进行裁剪,得到符合证件照的前景图像。最后对生成的证件照进行智能的标准化与否的分析,对于不合规的证件照,会给出相应的不合规提醒。

    一种基于多尺度特征聚合的视觉地点识别方法

    公开(公告)号:CN118038067A

    公开(公告)日:2024-05-14

    申请号:CN202410172853.7

    申请日:2024-02-07

    Inventor: 马伟 李本冲

    Abstract: 本发明公开了一种基于多尺度特征聚合的视觉地点识别方法,属于计算机视觉领域。本发明包括:多尺度特征提取模块,采用多种不同尺寸的卷积并行提取特征,扩大了感受野的大小,获得了多尺度特征,同时利用大卷积核尝试补充前面特征提取网络下采样步骤丢失的细节信息,使最终的全局特征同时保留丰富的细节信息和多尺度特征,能够应对视觉地点识别中的尺度变化,动态物体遮挡问题;特征聚合模块,使用连续的特征混合块,逐步将全局关系纳入特征中,保留整体结构信息,提升全局特征的表达能力,解决视角变化和光照变化挑战,获得更准确的定位结果。

    基于RGB-D双模态互引导的视觉里程计方法

    公开(公告)号:CN117974785A

    公开(公告)日:2024-05-03

    申请号:CN202410135321.6

    申请日:2024-01-31

    Inventor: 马伟 史宝坤

    Abstract: 本发明公开了基于RGB‑D双模态互引导的视觉里程计方法。该方法采用一种特殊设计的卷积神经网络模型,能够充分挖掘RGB和深度模态间的关系,并利用位姿解码器实现相机位姿的计算。该模型包括位姿估计网络和深度估计网络。深度估计网络,用于从单张图像生成深度图。在位姿网络编码器部分,两分支的网络分别处理相邻RGB图像和深度图像的通道拼接数据。通过RGB引导深度细节增强模块和深度引导RGB语义增强模块,实现了RGB和深度数据间的双模态互引导,有效挖掘了多模态数据间的互补信息。最终,深度特征和RGB特征,通过位姿解码器准确计算出相机的位姿。本发明在特征表达能力上有显著提升,有效提高视觉里程计方法的准确性。

    一种基于格拉姆矩阵的动漫图像分类方法

    公开(公告)号:CN113191406B

    公开(公告)日:2023-10-27

    申请号:CN202110415553.3

    申请日:2021-04-19

    Abstract: 本发明公开了一种基于格拉姆矩阵的动漫图像分类方法。该方法设计了一种基于深度卷积神经网络和格拉姆矩阵的图像分类网络,该网络可以将输入图像分为动漫类与非动漫类。本发明具体包括如下步骤:(1)在网络上广泛搜集动漫图像和非动漫图像,建立数据集;(2)对动漫图像进行数据增广处理扩充训练数据集;(3)使用预训练的ResNet50网络提取图像的特征;(4)将所提取的特征展平并进行内积运算,从而生成包含图像风格信息的格拉姆矩阵;(5)将格拉姆矩阵输入到深度卷积神经网络中进行分类,得到输入图像是否为动漫图像的分类结果。本发明能够对动漫图像进行识别,为避免因动漫引起的侵权提供新的方案。

    一种基于多域特征融合的图像篡改检测方法

    公开(公告)号:CN111311563B

    公开(公告)日:2023-06-09

    申请号:CN202010085638.5

    申请日:2020-02-10

    Inventor: 李帅伯 马伟 宗秋

    Abstract: 本发明涉及一种基于多域特征融合的数字图像篡改检测方法。本方法使用目标检测流程进行图像篡改检测,首先通过卷积神经网络提取图像空间域和噪声域的篡改遗留特征,将这些特征输入到区域建议网络得到候选检测框。之后,将空间域特征及得到的检测框作为输入信息进行注意力区域识别,识别出图像中具备篡改判别力的篡改可疑区域,在这一过程中,提取图像的重采样特征,引入图像的频域信息。然后将全图空间域特征和可疑区域特征级联,并与噪声域特征通过双线性池化进行融合,应用融合后的特征进行分类和检测框的回归计算,得到篡改类型以及篡改区域的位置。与现有方法相比,本发明能够检测多种类型篡改并准确定位篡改区域,具有更高的检测准确率。

    一种基于动静态场景分离的视觉里程计方法

    公开(公告)号:CN110910447B

    公开(公告)日:2023-06-06

    申请号:CN201911057343.0

    申请日:2019-10-31

    Inventor: 马伟 贾兆款

    Abstract: 本发明公开了一种基于动静态场景分离的视觉里程计方法,该方法是一个深度卷积神经网络模型,能够通过帧间变化分析实现动静态场景分离,并利用可靠的静态场景信息实现相机位姿的计算。该模型由三个子任务构成,分别为深度估计、相机位姿估计、动态物体检测。与现有技术相比,本发明具有以下优点:1)模型通过帧间变化分析,利用动态场景中深度信息的不一致性以及光流信息实现对场景的动静态分离,在此基础上利用更加可靠的静态场景信息实现相机位姿估计;2)利用估计得到的深度信息和相机位姿变换信息,使用T时刻的图像合成T+1时刻的图像,利用T+1时刻的合成图及其原图实现自监督学习,无需监督学习需要的昂贵代价。

    一种基于非限定环境下所拍摄照片生成证件照的方法

    公开(公告)号:CN113870176A

    公开(公告)日:2021-12-31

    申请号:CN202110898874.3

    申请日:2021-07-29

    Abstract: 一种基于非限定环境下所拍摄照片生成证件照的方法属于计算机视觉和图像处理等交叉领域。首先输入一张自拍照,通过神经网络检测模型检测图像中人物的数量并获取主体人的包围框。如果图像中只有一个人,则利用抠图模型直接进行抠图,获得前景图像与前景不透明度图像;如果检测到有多个人,则通过人物实例分割、图像修复算法去除图像中的其他人物,再通过抠图模型,对去除了其他人物的图像进行抠图,得到主体人物的前景图像与前景不透明度图像。检测前景图像中人脸边界框,通过人脸边界框,对前景图像进行裁剪,得到符合证件照的前景图像。最后对生成的证件照进行智能的标准化与否的分析,对于不合规的证件照,会给出相应的不合规提醒。

    一种基于风格与内容解耦的图像风格迁移方法

    公开(公告)号:CN113112397A

    公开(公告)日:2021-07-13

    申请号:CN202110322481.8

    申请日:2021-03-25

    Abstract: 本发明提出一种基于风格与内容解耦的图像风格迁移方法,具体涉及图像风格迁移神经网络和损失度量网络。风格迁移神经网络是用于该任务的任意前馈网络,损失度量网络由风格特征提取模块和内容特征提取模块组成。训练步骤如下:将风格迁移结果图与原内容图送入损失度量网络的内容特征提取模块,计算内容重建损失;将风格迁移结果图与原风格图像送入损失度量网络的风格特征提取模块,计算风格损失;通过损失度量网络训练图像风格迁移网络,使其生成的图像保留原图内容,且具备特定风格图的风格特征。本发明通过解耦风格和内容损失度量过程,使得所训练的风格迁移网络能够有效摒除来自风格图中内容的干扰。

    一种基于多域特征融合的图像篡改检测方法

    公开(公告)号:CN111311563A

    公开(公告)日:2020-06-19

    申请号:CN202010085638.5

    申请日:2020-02-10

    Inventor: 李帅伯 马伟 宗秋

    Abstract: 本发明涉及一种基于多域特征融合的数字图像篡改检测方法。本方法使用目标检测流程进行图像篡改检测,首先通过卷积神经网络提取图像空间域和噪声域的篡改遗留特征,将这些特征输入到区域建议网络得到候选检测框。之后,将空间域特征及得到的检测框作为输入信息进行注意力区域识别,识别出图像中具备篡改判别力的篡改可疑区域,在这一过程中,提取图像的重采样特征,引入图像的频域信息。然后将全图空间域特征和可疑区域特征级联,并与噪声域特征通过双线性池化进行融合,应用融合后的特征进行分类和检测框的回归计算,得到篡改类型以及篡改区域的位置。与现有方法相比,本发明能够检测多种类型篡改并准确定位篡改区域,具有更高的检测准确率。

Patent Agency Ranking