一种基于亚像素和条件对抗生成网络的单幅图像去雾方法

    公开(公告)号:CN109300090A

    公开(公告)日:2019-02-01

    申请号:CN201810986230.8

    申请日:2018-08-28

    Abstract: 本发明公开了一种基于亚像素和条件对抗生成网络的单幅图像去雾方法,包括以下步骤:获取原始无雾图像数据集,依据雾天成像模型合成有雾数据集;将待处理的有雾图像输入生成器G,所述生成器G的网络结构设置有跳层连接,经过编码输出尺寸逐步减少的特征图,解码阶段使用反卷积与亚像素分别获得各自的特征图后使用卷积对特征图进行操作,获得生成器输出无雾图像;将生成器G输出的无雾图像与原始无雾图像输入判别器D,判断生成器D输出无雾图像是否为真;对生成器G和判别器D同时进行对抗约束,计算对抗损失和L1损失,依据随机梯度下降的原则进行反向传播更新生成器G和判别器D的参数,当模型的总体损失收敛时,模型训练完成。

    一种基于Faster-RCNN的强负样本水下目标检测方法

    公开(公告)号:CN109165658A

    公开(公告)日:2019-01-08

    申请号:CN201810986082.X

    申请日:2018-08-28

    Abstract: 本发明公开了一种基于Faster-RCNN的强负样本水下目标检测方法,包括以下步骤:获取目标图像数据集,将目标图像输入卷积神经网络进行前向传播至共享的卷积层得到低维特征图;将获取的低维特征图一路输入至RPN网络得到正负样本及坐标,另一路继续前向传播得到高维特征图;对获取的与Ground Truth不相交的负样本进行图像求均值处理,实现基于图像亮度特征的相似度比较,完成与正样本相似的假负样本的筛除;将正样本、获取的筛选后的负样本与高维特征图共同输入到ROI Align层,提取正负样本建议区域的特征;将获取的建议区域特征传入全连接层,输出该区域的分类得分及回归后的坐标值。

    一种基于深度学习特征和点到集合距离度量学习的目标跟踪方法

    公开(公告)号:CN107491761A

    公开(公告)日:2017-12-19

    申请号:CN201710730930.6

    申请日:2017-08-23

    Abstract: 本发明公开了一种基于深度学习特征和点到集合距离度量学习的目标跟踪方法,包括以下步骤:在跟踪的起始帧随机选取若干目标样本和背景样本;对目标样本进行目标样本特征提取,对背景样本进行背景样本特征提取;将提取的目标样本特征聚类成若干个目标模板集合,将提取的背景样本特征聚类成若干个背景模板集合;通过降低同类别样本间距离并增大不同样本间的距离来学习投影矩阵;根据高斯分布对后续帧进行目标候选采集;提取目标候选的特征,并使用投影矩阵将目标模板集合、背景模板集合和目标候选投影到共同的子空间;计算每个目标候选到所有目标模板集合的距离,距离之和作为每个目标候选的得分,最终的跟踪结果为距离最小的前若干个目标候选的平均值。

    一种基于曲线弧分割的椭圆检测方法

    公开(公告)号:CN104239870B

    公开(公告)日:2017-11-17

    申请号:CN201410498704.6

    申请日:2014-09-25

    Abstract: 一种基于曲线弧分割的椭圆检测方法,包括以下步骤:将图像转化为二值图像,基于细化算法由二值图像得到细化的轮廓图;在细化的轮廓图中跟踪所有的轮廓,根据轮廓点间相互的连接性对细化图像中的轮廓像素点进行跟踪,将轮廓从交点处分割成弧段,直到所有的轮廓被跟踪完毕;根据各个弧段长度的比例,确定在每段弧上采样的次数,在每一个连续的轮廓弧段中采样;将每次采样得到的采样点带入椭圆一般方程,分别计算出一组椭圆参数;基于统计的思想,记录各组参数的出现次数,找出出现次数最多的一组参数,最终得到目标椭圆的参数。本发明从每一个连续的轮廓弧段中采样,使无效随机采样的概率大大降低,从而提高椭圆检测速度。

    基于赋权最小二乘的单目标跟踪方法

    公开(公告)号:CN103093482A

    公开(公告)日:2013-05-08

    申请号:CN201310037978.0

    申请日:2013-01-31

    Abstract: 基于赋权最小二乘的单目标跟踪方法,属于图像处理与模式识别的技术领域。本发明以视频序列作为输入,包括两个阶段。在模型初始化阶段,以跟踪目标为中心,在一定搜索范围内采样与目标相同大小的目标候选。若目标候选中心与目标中心距离小于阈值,则将目标候选作为目标模板,否则作为背景模板。在跟踪阶段,以上一时刻跟踪到的目标为中心,在一定搜索范围内采样目标候选。将任一目标候选表示为目标模板和背景模板的线性组合,并利用赋权最小二乘算法求解表示的系数。目标候选的权重通过目标模板及其对应系数对其进行重构的误差进行计算。权重最大的目标候选则为当前时刻的跟踪结果。本发明可以应用在人机交互和智能视频监控等方面。

    一种基于稀疏编码的字体识别方法

    公开(公告)号:CN102262731B

    公开(公告)日:2012-10-10

    申请号:CN201110192198.4

    申请日:2011-07-11

    Abstract: 本发明提供了一种基于稀疏编码的字体识别方法。本发明以灰度图像作为输入,对于任意一幅待测试图像进行以下两个阶段的操作:在训练阶段,将各类字体的待测试图像随机划分成一定数量的方块,方块的数量由图像大小以及方块大小共同决定,例如一幅512×512的灰度图像,可以划分成4096个8×8大小的方块。对于任一类字体,以划分出的方块为输入,利用独立成分分析方法训练出一组能够稀疏表示任一方块的基函数,并将这些基函数作为该类字体的模型。本发明可以对中文字体进行识别;也可以对其它语言的字体进行识别;还可以对不同语言的字体进行识别。本发明可以应用在自动文档分析和艺术设计等方面。

    基于多视角一致性的三维全景场景理解方法及装置

    公开(公告)号:CN119131265B

    公开(公告)日:2025-04-04

    申请号:CN202411595094.1

    申请日:2024-11-11

    Abstract: 本公开的实施例提供了一种基于多视角一致性的三维全景场景理解方法及装置;涉及三维场景重建领域。方法包括将待重建场景的多视角图像输入预先训练好的三维全景辐射场模型,以便预先训练好的三维全景辐射场模型利用二维全景分割算法对待重建场景中各视角图像的几何特征、语义特征和颜色特征进行分割并对分割后的几何特征、语义特征和颜色特征分别进行视角一致性处理,获取视角一致的几何特征、语义特征和颜色特征;根据视角一致的几何特征、语义特征和颜色特征,通过预先训练好的三维全景辐射场模型重建待重建场景,获取待重建场景的全景图像。以此解决了多视角下语义歧义、几何结构失真的问题,提高了三维全景场景重建与理解的精度及一致性。

    基于多视角一致性的三维全景场景理解方法及装置

    公开(公告)号:CN119131265A

    公开(公告)日:2024-12-13

    申请号:CN202411595094.1

    申请日:2024-11-11

    Abstract: 本公开的实施例提供了一种基于多视角一致性的三维全景场景理解方法及装置;涉及三维场景重建领域。方法包括将待重建场景的多视角图像输入预先训练好的三维全景辐射场模型,以便预先训练好的三维全景辐射场模型利用二维全景分割算法对待重建场景中各视角图像的几何特征、语义特征和颜色特征进行分割并对分割后的几何特征、语义特征和颜色特征分别进行视角一致性处理,获取视角一致的几何特征、语义特征和颜色特征;根据视角一致的几何特征、语义特征和颜色特征,通过预先训练好的三维全景辐射场模型重建待重建场景,获取待重建场景的全景图像。以此解决了多视角下语义歧义、几何结构失真的问题,提高了三维全景场景重建与理解的精度及一致性。

    一种基于高斯点渲染的单目人脸化身生成方法

    公开(公告)号:CN117974867B

    公开(公告)日:2024-06-21

    申请号:CN202410381197.1

    申请日:2024-04-01

    Abstract: 一种基于高斯点渲染的单目人脸化身生成方法,包括以下步骤:从单目人像视频中提取FLAME的表情参数和姿态参数;定义初始化空间、标准空间、形变空间;从点在形变空间与初始化空间的位置信息,获取点在形变空间中的高斯参数;将点在形变空间中的高斯参数输入渲染器,并渲染图像;将渲染图像与输入单目人像视频做图像损失,通过最小化该约束进行训练;每次训练迭代中加入增删点策略以实现点数增加;通过驱动视频对训练好的特定人物化身进行驱动。本发明设计迭代优化的策略,以及高斯点云的增删点策略,利用高斯抛雪球渲染器的渲染速度和渲染质量,通过预训练的线性混合蒙皮函数引导高斯参数网络和点的形变网络的训练,提高人像化身的生成质量。

    一种基于语音韵律学分解的三维数字人头部动画生成方法

    公开(公告)号:CN118015162B

    公开(公告)日:2024-06-14

    申请号:CN202410425334.7

    申请日:2024-04-10

    Abstract: 本发明公开了一种基于语音韵律学分解的三维数字人头部动画生成方法,包括以下步骤:通过语言内容、风格和基础频率编码器分别提取音频中的三者相关的潜在变量;通过周期位置编码获得额外的时序信息,使用跨模态偏差多头自注意力模块增强对于长动作序列的泛化性能;计算跨模态的对齐偏差并通过多头注意力模块对齐多模态信息,实现三维数字人头部动画中的唇部动作生成;通过基于Transformer的动作变分自编码器将唇部动作序列映射到低维潜在空间,设计条件概率扩散模型实现基于基础频率的三维数字人头部动画中的头部动作生成。本发明更加深层次挖掘了语音中韵律部分同唇部动作的关系,实现了更加高效的唇部动作序列生成。

Patent Agency Ranking