一种基于深度学习的自然场景下文字检测定位方法

    公开(公告)号:CN107346420A

    公开(公告)日:2017-11-14

    申请号:CN201710463101.6

    申请日:2017-06-19

    Abstract: 本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R-CNN的RPN(多层卷积神经网络),根据文字的特征信息,改变RPN中的anchor大小以及回归方式,并加入RNN网络层对图片上下文信息进行分析,构造一个能够有效地检测出文字的文字检测网络。另外,本发明采用聚类方法,设定anchor的大小。特别地,本发明使用困难样本挖掘进行级联训练,能够减少对于文字的误检率。在测试方面,本发明采用级联测试的方法,最终,准确高效的实现文字的定位。

    一种弱监督的深度台标检测方法

    公开(公告)号:CN107330027A

    公开(公告)日:2017-11-07

    申请号:CN201710485397.1

    申请日:2017-06-23

    Abstract: 本发明提供一种弱监督的深度台标检测方法,其步骤为:对海量网络视频数据文件进行预处理,得到一个仅标记台标类别的大数据集和一个仅标记台标位置的小数据集;将上述小数据集输入台标定位网络进行训练,得到能预测台标区域的台标定位网络;将上述大数据集输入上述已训练好的台标定位网络,得到所述大数据集中每张图片的若干预测台标区域,并将所述每张图片的若干预测台标区域输入台标分类网络进行训练,得到能为台标分类的台标分类网络;对待检测视频进行与上述相同的部分预处理,并将预处理后得到的图片输入训练好的台标定位网络中,得到图片的预测台标区域;将上述图片的预测台标区域输入训练好的台标分类网络中,得到图片的台标位置及类别。

    一种基于颜色统计差异的染色伪造图像检测方法

    公开(公告)号:CN107103327A

    公开(公告)日:2017-08-29

    申请号:CN201710382747.1

    申请日:2017-05-26

    CPC classification number: G06K9/6256 G06K9/4652 G06K9/6269

    Abstract: 本发明提供一种基于颜色统计差异的染色伪造图像检测方法,该方法首先构建训练图像集的统计分布图以及训练图像集中所有训练图像的统计分布图;之后根据差异最大化原则,基于上述训练图像集的统计分布图计算检测特征参数,基于所述检测特征参数计算每幅训练图像的统计分布图,并计算每幅训练图像的统计分布图的分布特性,从而构建训练图像的有效的完整检测特征;最后利用训练图像的完整检测特征和对应的训练图像标签训练分类器,从而得到有效的检测分类器,即可针对待检测图像提取其完整检测特征,从而利用训练好的检测分类器进行检测。

    一种修正误判的图像内容识别方法

    公开(公告)号:CN106778852A

    公开(公告)日:2017-05-31

    申请号:CN201611115016.2

    申请日:2016-12-07

    Inventor: 操晓春 荆丽桦

    CPC classification number: G06K9/6267 G06K9/6256

    Abstract: 本发明公开一种修正误判的图像内容识别方法。该方法包括:1)对训练样本的数据集进行扩展,保证能够提取出足够识别物体的特征;2)利用扩展后的数据集,采用Faster R‑CNN框架进行数据训练,在训练过程中引入易误判负类,将其与正样本一同进行训练,最终得到Faster R‑CNN网络;3)利用训练得到的Faster R‑CNN网络,识别待检测图像中的特定物体。其中步骤1)通过对样本进行拉伸、加噪扩展数据集,也可采用其它方式;步骤2)通过深入分析数据自身特点和测试过程中的误判图像规律,将易与正样本混淆的图像细分为多类,形成所述易误判负类。本发明能显著减少模型误判,提高图像内容识别的精度。

    基于姿态信息的人-物关系检测方法及装置

    公开(公告)号:CN117975328A

    公开(公告)日:2024-05-03

    申请号:CN202410030911.2

    申请日:2024-01-09

    Abstract: 本发明针对自然场景中的视频,提出了一种基于姿态信息的人‑物关系检测方法及装置。该方法的框架主要包含三个模块:关系特征提取、姿势表示建模和关系‑姿态变换器。首先将视频剪辑输入关系特征提取模块以获得对象级特征及其关系特征。同时,还将视频片段送入姿势特征提取模块,生成头部姿势特征和身体姿势特征。然后,关系‑姿态变换器将物体、关系和姿势特征作为输入来生成关系的时空交互表示。最后,利用三个分类器来预测注意力关系、空间关系和接触关系,以构建以人为中心的图。本发明对于各种复杂场景下的人‑物关系检测均具有优秀的性能。

    一种基于频域滤波处理的自然场景下阴影识别检测方法

    公开(公告)号:CN112257766B

    公开(公告)日:2023-09-29

    申请号:CN202011109331.0

    申请日:2020-10-16

    Abstract: 本发明公开了一种基于频域滤波处理的自然场景下阴影识别检测方法,其步骤包括:1)频域选择模块对数据集中的图片进行处理,为对应图片构造频域范围内的人工特征低频图;所述数据集包含多个图片及其二值掩模图;2)基于UNet网络构造阴影检测网络,所述阴影检测网络的损失函数包含用于计算生成图片与对应二值掩膜图的相似度的Dice损失函数;3)利用各图片及其对应的人工特征低频图、二值掩膜图对所述阴影检测网络进行训练;4)将待检测图片输入训练后的阴影检测网络,检测得到该待检测图片的阴影。本发明大大提高了阴影检测的准确性。

    一种免锚框的实例人像语义解析方法

    公开(公告)号:CN115331254A

    公开(公告)日:2022-11-11

    申请号:CN202210203916.1

    申请日:2022-03-03

    Abstract: 本发明公开了一种免锚框的实例人像语义解析方法。本发明利用训练集训练实例人像语义解析模型,所述实例人像语义解析模型包括特征提取模块、人物实例检测分支和人物实例细粒度感知分支;所述人物实例细粒度感知分支包括细节保持模块、人体部件上下文编码模块、人物实例解析模块和实例解析结果精炼模块;本发明采用了一个一阶段的基于中心点预测的免锚框检测器用于人物实例边界框位置预测和一个边缘引导的人物实例语义解析模块用于人像语义部件的识别,免锚框的人物检测器不仅继承了像素级设计的优势,且能够有效避免因产生候选边界框引起的超参数敏感性问题;边缘引导的人像语义解析模块能够有效区分不同的人物实例位置和相邻的人像语义类别。

    一种基于目标动态表观对齐的视觉跟踪方法

    公开(公告)号:CN115239757A

    公开(公告)日:2022-10-25

    申请号:CN202210215901.7

    申请日:2022-03-07

    Abstract: 本发明公开了一种基于目标动态表观对齐的视觉跟踪方法。本方法利用目标表观对齐模块估计模板图像和待处理图像之间的形态对齐参数,将目标对齐分解为特征对齐雅可比参数估计、形态残差估计、反向迭代组合三个子模块,并分别设计了可训练的前向传播网络执行对应操作;目标模板匹配模块利用深度神经网络提取出模板图像和待处理图像中被跟踪物体的语义特征,然后利用目标表观对齐模块迭代预测得到的对齐参数对待处理图像特征做适当调整,使模板图像和待处理图像的目标形态尽可能保持一致;最后利用相关卷积操作计算模板图像特征和调整后的待处理图像特征的相似性,输出对目标位置敏感的相似性匹配热图,热图中响应最高的位置即目标状态位置。

    自然场景图像中曲线文字的检测识别方法

    公开(公告)号:CN110287960B

    公开(公告)日:2021-12-10

    申请号:CN201910592008.4

    申请日:2019-07-02

    Abstract: 本发明公开了一种自然场景图像中曲线文字的检测识别方法,本方法用于解决曲线文字识别中边界模糊且与背景对比度低的问题,提高曲线文字检测精度。主要步骤包括1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。

Patent Agency Ranking