一种基于焦点损失函数的自然场景下文字检测定位方法和装置

    公开(公告)号:CN109117836A

    公开(公告)日:2019-01-01

    申请号:CN201810729838.2

    申请日:2018-07-05

    Abstract: 本发明公开一种基于焦点损失函数的自然场景下文字检测定位方法和装置。该方法首先对标注的数据进行预处理,然后构造文本检测定位网络,然后引用聚焦损失函数作为训练过程损失函数的一部分,然后对待检测的自然场景图片进行检测。该方法通过调整现有标注使标注更加适合所设计的文字检测网络;基于FCN网络将多卷积层进行合并,使之更加符合文字检测任务;通过引入聚焦损失函数在训练过程中平衡正负样本,提高检测精度。本发明能够在文字检测定位上取得高精度高召回的效果。

    一种弱监督的深度台标检测方法

    公开(公告)号:CN107330027B

    公开(公告)日:2020-05-22

    申请号:CN201710485397.1

    申请日:2017-06-23

    Abstract: 本发明提供一种弱监督的深度台标检测方法,其步骤为:对海量网络视频数据文件进行预处理,得到一个仅标记台标类别的大数据集和一个仅标记台标位置的小数据集;将上述小数据集输入台标定位网络进行训练,得到能预测台标区域的台标定位网络;将上述大数据集输入上述已训练好的台标定位网络,得到所述大数据集中每张图片的若干预测台标区域,并将所述每张图片的若干预测台标区域输入台标分类网络进行训练,得到能为台标分类的台标分类网络;对待检测视频进行与上述相同的部分预处理,并将预处理后得到的图片输入训练好的台标定位网络中,得到图片的预测台标区域;将上述图片的预测台标区域输入训练好的台标分类网络中,得到图片的台标位置及类别。

    一种基于深度学习的自然场景下文字检测定位方法

    公开(公告)号:CN107346420B

    公开(公告)日:2020-02-11

    申请号:CN201710463101.6

    申请日:2017-06-19

    Abstract: 本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R‑CNN的RPN(多层卷积神经网络),根据文字的特征信息,改变RPN中的anchor大小以及回归方式,并加入RNN网络层对图片上下文信息进行分析,构造一个能够有效地检测出文字的文字检测网络。另外,本发明采用聚类方法,设定anchor的大小。特别地,本发明使用困难样本挖掘进行级联训练,能够减少对于文字的误检率。在测试方面,本发明采用级联测试的方法,最终,准确高效的实现文字的定位。

    一种面向多方向的文字检测方法和装置

    公开(公告)号:CN108960229B

    公开(公告)日:2022-04-01

    申请号:CN201810366383.2

    申请日:2018-04-23

    Inventor: 王蕊 伍蹈 操晓春

    Abstract: 本发明涉及一种面向多方向的文字检测方法和装置。在训练方面,在不改变网络结构的基础上,对四边形真值框进行切分,把四边形真值框变为多个矩形区域的条状真值框,满足CTPN的输入,控制一个训练的最小批量正负样本比例,保证正负样本平衡,再放入CTPN网络进行训练;在测试方面,同时对原图和旋转90度之后的图片放入测试网络,对网络预测出来的条状矩形区域进行拟合形成四边形候选框,对旋转90度的测试图片的检测结果进行逆时针旋转90度恢复为原图的坐标位置;最后对两图的检测结果综合做非极大值抑制等筛选,实现准确的多方向文字定位。本发明能够适应多方向,包括水平、倾斜、竖直等方向的文字,并且有着较高的精度。

    一种面向多方向的文字检测方法和装置

    公开(公告)号:CN108960229A

    公开(公告)日:2018-12-07

    申请号:CN201810366383.2

    申请日:2018-04-23

    Inventor: 王蕊 伍蹈 操晓春

    CPC classification number: G06K9/3233 G06K9/3275 G06K9/342

    Abstract: 本发明涉及一种面向多方向的文字检测方法和装置。在训练方面,在不改变网络结构的基础上,对四边形真值框进行切分,把四边形真值框变为多个矩形区域的条状真值框,满足CTPN的输入,控制一个训练的最小批量正负样本比例,保证正负样本平衡,再放入CTPN网络进行训练;在测试方面,同时对原图和旋转90度之后的图片放入测试网络,对网络预测出来的条状矩形区域进行拟合形成四边形候选框,对旋转90度的测试图片的检测结果进行逆时针旋转90度恢复为原图的坐标位置;最后对两图的检测结果综合做非极大值抑制等筛选,实现准确的多方向文字定位。本发明能够适应多方向,包括水平、倾斜、竖直等方向的文字,并且有着较高的精度。

    一种基于焦点损失函数的自然场景下文字检测定位方法和装置

    公开(公告)号:CN109117836B

    公开(公告)日:2022-05-24

    申请号:CN201810729838.2

    申请日:2018-07-05

    Abstract: 本发明公开一种基于焦点损失函数的自然场景下文字检测定位方法和装置。该方法首先对标注的数据进行预处理,然后构造文本检测定位网络,然后引用聚焦损失函数作为训练过程损失函数的一部分,然后对待检测的自然场景图片进行检测。该方法通过调整现有标注使标注更加适合所设计的文字检测网络;基于FCN网络将多卷积层进行合并,使之更加符合文字检测任务;通过引入聚焦损失函数在训练过程中平衡正负样本,提高检测精度。本发明能够在文字检测定位上取得高精度高召回的效果。

    一种基于深度学习的自然场景下文字检测定位方法

    公开(公告)号:CN107346420A

    公开(公告)日:2017-11-14

    申请号:CN201710463101.6

    申请日:2017-06-19

    Abstract: 本发明提供一种基于深度学习的自然场景下文字检测定位方法。基于Faster R-CNN的RPN(多层卷积神经网络),根据文字的特征信息,改变RPN中的anchor大小以及回归方式,并加入RNN网络层对图片上下文信息进行分析,构造一个能够有效地检测出文字的文字检测网络。另外,本发明采用聚类方法,设定anchor的大小。特别地,本发明使用困难样本挖掘进行级联训练,能够减少对于文字的误检率。在测试方面,本发明采用级联测试的方法,最终,准确高效的实现文字的定位。

    一种弱监督的深度台标检测方法

    公开(公告)号:CN107330027A

    公开(公告)日:2017-11-07

    申请号:CN201710485397.1

    申请日:2017-06-23

    Abstract: 本发明提供一种弱监督的深度台标检测方法,其步骤为:对海量网络视频数据文件进行预处理,得到一个仅标记台标类别的大数据集和一个仅标记台标位置的小数据集;将上述小数据集输入台标定位网络进行训练,得到能预测台标区域的台标定位网络;将上述大数据集输入上述已训练好的台标定位网络,得到所述大数据集中每张图片的若干预测台标区域,并将所述每张图片的若干预测台标区域输入台标分类网络进行训练,得到能为台标分类的台标分类网络;对待检测视频进行与上述相同的部分预处理,并将预处理后得到的图片输入训练好的台标定位网络中,得到图片的预测台标区域;将上述图片的预测台标区域输入训练好的台标分类网络中,得到图片的台标位置及类别。

Patent Agency Ranking