-
公开(公告)号:CN112784829B
公开(公告)日:2024-05-21
申请号:CN202110084184.4
申请日:2021-01-21
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/14 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/0985
摘要: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。
-
公开(公告)号:CN116012650B
公开(公告)日:2024-04-23
申请号:CN202310002789.3
申请日:2023-01-03
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V10/764 , G06V10/774 , G06V10/40 , G06N3/09
摘要: 本公开提供了文字识别模型训练及其识别方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可用于OCR等场景。具体实现方案为:获取分别包括文字信息的第一样本图片和第二样本图片,以及第二样本图片对应的样本文字标签;根据第一样本图片对特征提取网络进行自监督预训练,以及,根据第二样本图片和相应样本文字标签,对特征提取网络进行有监督预训练;根据预训练好的特征提取网络,生成文字识别模型,用于对待预测图像进行文字识别。根据本公开的技术,提高了文字识别模型的识别结果准确度。
-
公开(公告)号:CN111860506B
公开(公告)日:2024-03-29
申请号:CN202010721524.5
申请日:2020-07-24
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V20/62 , G06V30/148 , G06V30/19
摘要: 本申请公开了一种识别文字的方法和装置,涉及人工智能技术领域、计算机视觉技术领域、知识图谱技术领域和自然语言处理技术领域。方法包括:获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;从文字中心线图中提取字符中心的特征点的坐标;基于文字方向偏移图,排序字符中心的特征点的坐标,得到字符中心的特征点的坐标序列;根据字符中心的特征点的坐标序列和文字边界偏移图,确定文字区域的多边形包围框;根据字符中心的特征点的坐标序列和文字字符分类图,确定字符中心的特征点的分类结果。该方法可以对输入图像中任意方向的文字进行识别,提高了文字的识别效率和准确率。
-
公开(公告)号:CN113657395B
公开(公告)日:2024-02-13
申请号:CN202110944388.0
申请日:2021-08-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/148 , G06V30/18 , G06V30/19 , G06V10/80
摘要: 本公开提供了一种文本识别方法、视觉特征提取模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景,包括:获取待识别图像中待识别文本分别对应的先验特征和视觉特征,先验特征是基于待识别图像的先验知识确定的,对先验特征和视觉特征进行融合处理,得到融合特征,对融合特征进行编码处理得到编码特征,对编码特征进行解码处理,得到与待识别文本对应的文本内容,使得文本识别过程不再为孤立和片面的过程,而具有全面性和完整性,以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、用于确定视觉特征的信息)确定文本内容,以提高文本识别的可靠性、准确性、及精度。
-
公开(公告)号:CN112560862B
公开(公告)日:2024-02-13
申请号:CN202011495211.9
申请日:2020-12-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本申请公开了文本识别方法、装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取包括文本信息的图像,所述文本信息包括M个字符,M为大于1的正整数;对所述图像进行文本识别,得到所述M个字符的字符信息;基于所述M个字符的字符信息,识别每个字符的阅读指向信息,所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符;基于所述M个字符的阅读指向信息对所述M个字符进行排序,得到所述文本信息的文本识别结果。根据本申请的技术,解决了OCR技术中存在的文本识别效果比较差的问题,提高了图像中文本的识别效果。
-
公开(公告)号:CN114724144B
公开(公告)日:2024-02-09
申请号:CN202210531978.5
申请日:2022-05-16
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/16 , G06V30/164 , G06V10/82 , G06N3/04 , G06N3/088
摘要: 本公开提供了文本识别方法、用于文本识别的模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待处理图像进行文本检测处理,得到目标待处理图像;对目标待处理图像进行降噪重建处理,得到目标重建图像;从目标待处理图像和目标重建图像中确定目标图像;以及对目标图像进行文本识别处理,得到识别结果。
-
公开(公告)号:CN114724133B
公开(公告)日:2024-02-02
申请号:CN202210404529.4
申请日:2022-04-18
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V20/62 , G06V30/146 , G06V30/148 , G06V30/18 , G06V30/19 , G06V30/414 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
摘要: 中的文字以文本实例为单元进行检测得到检测本公开提供了一种文字检测和模型训练方 结果,文字检测的准确性较高。法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取训练样本,训练样本中包括样本图像和标签图像,标签图像为对所述样本图像上的文本实例进行标注得到的图像;将样本图像输入至文字检测模型,得到文字检测模型输出的分割图像和分割图像的图像类别,其中,图像类别指(56)对比文件CN 112634292 A,2021.04.09CN 105741294 A,2016.07.06CN 113887394 A,2022.01.04陈志毅等.基于deepFM和卷积神经网络的集成式多模态谣言检测方法.计算机科学.2022,第49卷(第1期),101-107.H. T. Basavaraju等.Arbitrary orientedmultilingual text detection andsegmentation using level set and Gaussianmixture model.EvolutionaryIntelligence.2021,881–894.胥杏培;宋余庆;陆虎.一种结合深度学习特征和社团划分的图像分割方法.小型微型计算机系统.2018,(11),2533-2537.梁礼明;黄朝林;石霏;吴健;江弘九;陈新建.融合形状先验的水平集眼底图像血管分割.计算机学报.2016,(07),1678-1692.
-
公开(公告)号:CN111539438B
公开(公告)日:2024-01-12
申请号:CN202010349150.9
申请日:2020-04-28
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/148 , G06V30/14
摘要: 本申请公开了一种文本内容的识别方法、装置及电子设备,涉及计算机技术领域中的文本识别技术。具体实现方案为:获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
-
公开(公告)号:CN111723769B
公开(公告)日:2023-10-27
申请号:CN202010613379.9
申请日:2020-06-30
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了一种用于处理图像的方法、装置、设备以及存储介质,涉及人工智能深度学习、计算机视觉、大数据领域。具体实现方案为:获取目标视频,目标视频包括目标图像帧以及已标注目标对象的至少一个图像帧;根据至少一个图像帧中已标注目标对象,确定目标图像帧中针对目标对象的搜索区域;根据搜索区域,确定目标对象的中心位置信息;根据至少一个图像帧的标注区域以及中心位置信息,确定目标对象区域;根据目标对象区域,分割目标图像帧。本实现方式可以鲁棒地定位目标对象并提供精细的目标分割结果。
-
公开(公告)号:CN116884025A
公开(公告)日:2023-10-13
申请号:CN202310708376.7
申请日:2023-06-14
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V30/412 , G06V30/19 , G06V30/18 , G06V10/82 , G06N3/0455 , G06N3/084
摘要: 本公开提供了一种表格结构识别及模型训练方法、装置、设备和存储介质,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于智慧金融等场景。表格结构识别方法包括:获取表格图像的目标图像特征;基于所述目标图像特征,确定所述表格中表格分割线的参考位置;对所述参考位置对应的参考特征,以及所述表格分割线上候选点的查询特征进行融合处理,以获取融合特征;对所述融合特征进行解码处理,以获取所述候选点的结构信息;基于所述候选点的结构信息,确定所述表格中单元格的结构信息。本公开可以提升表格结构识别效果。
-
-
-
-
-
-
-
-
-