-
公开(公告)号:CN112560862A
公开(公告)日:2021-03-26
申请号:CN202011495211.9
申请日:2020-12-17
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了文本识别方法、装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取包括文本信息的图像,所述文本信息包括M个字符,M为大于1的正整数;对所述图像进行文本识别,得到所述M个字符的字符信息;基于所述M个字符的字符信息,识别每个字符的阅读指向信息,所述阅读指向信息用于指示当前字符在语义阅读顺序下对应的下一个字符;基于所述M个字符的阅读指向信息对所述M个字符进行排序,得到所述文本信息的文本识别结果。根据本申请的技术,解决了OCR技术中存在的文本识别效果比较差的问题,提高了图像中文本的识别效果。
-
公开(公告)号:CN112508005A
公开(公告)日:2021-03-16
申请号:CN202011526687.4
申请日:2020-12-22
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了用于处理图像的方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉、深度学习等技术领域。具体实现方案为:获取模板图像,模板图像包括至少一个感兴趣区域;确定各感兴趣区域对应的第一特征图;获取目标图像;确定目标图像的第二特征图;根据各第一特征图和第二特征图,确定目标图像中的至少一个感兴趣区域。本实现方式可以检测任意垂类任意数量字段的文本,能够满足用户的定制化需求。
-
公开(公告)号:CN111832568A
公开(公告)日:2020-10-27
申请号:CN202010536808.7
申请日:2020-06-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种车牌识别方法,涉及人工智能、计算机视觉以及深度学习技术领域,具体涉及图像识别技术领域。具体实现方案为:通过获取车牌区域的特征图的多个特征向量;将多个特征向量,按照第一顺序依次输入第一循环神经网络进行编码,以得到每一个特征向量的第一编码;将多个特征向量,按照第二顺序依次输入第二循环神经网络进行编码,以得到每一个特征向量的第二编码;根据每一个特征向量的第一编码和每一个特征向量的第二编码,以生成多个特征向量的多个目标编码;以及对多个目标编码进行解码,以得到车牌中的多个字符。该方法中对提取的车牌区域的特征图包含的多个特征向量,分别采用循环神经网络进行正反向编码,从而使得编码后的特征携带有上下文信息,大大提高了车牌识别的准确率。
-
公开(公告)号:CN111709339A
公开(公告)日:2020-09-25
申请号:CN202010517447.1
申请日:2020-06-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
-
公开(公告)号:CN111680628A
公开(公告)日:2020-09-18
申请号:CN202010518207.3
申请日:2020-06-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请实施例公开了文字框融合方法、装置、设备以及存储介质,涉及深度学习、文字检测技术领域。该方法的一具体实施方式包括:获取待融合文字候选框;计算待融合文字候选框的特征点与四角点的归一化距离,作为待融合文字候选框的初始化权重;基于待融合文字候选框的初始化权重融合待融合文字候选框,得到融合文字候选框。该实施方式采用特征点与四角点的归一化距离作为权重,以融合文字候选框,能够为每个角点分配不同的权重值,显著提升了对长文字行的融合效果。
-
公开(公告)号:CN103577818B
公开(公告)日:2018-09-04
申请号:CN201210279370.4
申请日:2012-08-07
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/20
Abstract: 本发明提供了一种图像文字识别的方法和装置,其中方法包括:S1、获取待识别图像中的文字区域;S2、对文字区域中的各字块分别进行识别并记录各字块的位置信息;S3、基于各字块的位置信息进行版面分析得到语句结构分布;S4、基于语句结构分布对各字块的识别结果进行基于语义分析的校正,得到校正后的识别结果。本发明有效地利用了文字之间的语义信息对各字块的识别结果进行修正,提高了图像文字识别的精度,更好地满足了用户的识别需求。
-
公开(公告)号:CN103064936B
公开(公告)日:2018-03-30
申请号:CN201210568735.5
申请日:2012-12-24
Applicant: 北京百度网讯科技有限公司
Inventor: 韩钧宇
IPC: G06F17/30
Abstract: 本发明提供了一种基于语音输入的图像信息提取分析方法及装置,其中,方法包括:预先建立像信息提取场景库;S1、根据用户输入的语音,获取用户的信息提取意图;S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。本发明能够综合各种不同类别的图像信息提取软件所具有的功能,同时,能够根据用户输入的语音,智能地提取目标图像中的对应信息并进行分析处理,显著减少了用户的交互负担。
-
公开(公告)号:CN105260733A
公开(公告)日:2016-01-20
申请号:CN201510579670.8
申请日:2015-09-11
Applicant: 北京百度网讯科技有限公司
Inventor: 韩钧宇
IPC: G06K9/20
CPC classification number: G06K9/20 , G06K9/2054
Abstract: 本申请公开了一种用于处理图像信息的方法和装置。所述方法的一具体实施方式包括:识别原始图像中的每个字符并获取每个字符的位置;对原始图像中的字符与模板图像的版面结构区域中的字符进行匹配,将两者中相同的字符或字符串记录为匹配点对;根据原始图像中字符的位置和模板图像版面结构区域中字符的位置获得匹配点对之间的投影变换矩阵;根据所述投影变换矩阵对原始图像进行配准,获得已配准图像;识别所述已配准图像以获得识别结果。该实施方式简化了文字识别中图像匹配的步骤,增强了匹配的准度与通用性,降低了开发成本。
-
公开(公告)号:CN105184289A
公开(公告)日:2015-12-23
申请号:CN201510651869.7
申请日:2015-10-10
Applicant: 北京百度网讯科技有限公司
CPC classification number: G06K9/2072 , G06K2209/01 , G06N3/02
Abstract: 本申请公开了字符识别方法和装置。所述方法的一具体实施方式包括:接收字符图像,所述字符图像包括排列成行的至少一个字符;合并所述字符图像中的至少一个连通成分,得到至少一个图像块区域;识别各所述图像块区域的字符串,并根据各所述图像块区域所在的位置及所识别出的字符串,得到各所述字符串中的各字符在所述字符图像中的位置以及各字符的识别置信度;根据各字符在所述字符图像中的位置和识别置信度,通过预设的搜索算法得到所述字符图像的字符,并将所述字符图像的字符进行输出。该实施方式实现了高精度的字符识别。
-
公开(公告)号:CN103093217A
公开(公告)日:2013-05-08
申请号:CN201310003574.X
申请日:2013-01-06
Applicant: 北京百度网讯科技有限公司
Abstract: 本发明提供了一种交互式的图像文字识别方法及装置,其中,方法包括:S1、在目标图像上确定与用户选定的识别区域相适应的粗检测区域;S2、识别所述粗检测区域中的文字信息,并分析识别得到的文字信息中的语义单元;S3、从分析得到的语义单元中确定与所述用户选定的识别区域相适应的语义单元返回给所述用户。本发明无需用户精确选定文字区域,且能够智能地向用户返回满足用户需求的、且具有完整语义的识别结果,无需用户进一步进行调整或编辑,减小了识别图像中的文字时用户的交互负担。
-
-
-
-
-
-
-
-
-