-
公开(公告)号:CN111860506B
公开(公告)日:2024-03-29
申请号:CN202010721524.5
申请日:2020-07-24
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/148 , G06V30/19
Abstract: 本申请公开了一种识别文字的方法和装置,涉及人工智能技术领域、计算机视觉技术领域、知识图谱技术领域和自然语言处理技术领域。方法包括:获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;从文字中心线图中提取字符中心的特征点的坐标;基于文字方向偏移图,排序字符中心的特征点的坐标,得到字符中心的特征点的坐标序列;根据字符中心的特征点的坐标序列和文字边界偏移图,确定文字区域的多边形包围框;根据字符中心的特征点的坐标序列和文字字符分类图,确定字符中心的特征点的分类结果。该方法可以对输入图像中任意方向的文字进行识别,提高了文字的识别效率和准确率。
-
公开(公告)号:CN114724133B
公开(公告)日:2024-02-02
申请号:CN202210404529.4
申请日:2022-04-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/146 , G06V30/148 , G06V30/18 , G06V30/19 , G06V30/414 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 中的文字以文本实例为单元进行检测得到检测本公开提供了一种文字检测和模型训练方 结果,文字检测的准确性较高。法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取训练样本,训练样本中包括样本图像和标签图像,标签图像为对所述样本图像上的文本实例进行标注得到的图像;将样本图像输入至文字检测模型,得到文字检测模型输出的分割图像和分割图像的图像类别,其中,图像类别指(56)对比文件CN 112634292 A,2021.04.09CN 105741294 A,2016.07.06CN 113887394 A,2022.01.04陈志毅等.基于deepFM和卷积神经网络的集成式多模态谣言检测方法.计算机科学.2022,第49卷(第1期),101-107.H. T. Basavaraju等.Arbitrary orientedmultilingual text detection andsegmentation using level set and Gaussianmixture model.EvolutionaryIntelligence.2021,881–894.胥杏培;宋余庆;陆虎.一种结合深度学习特征和社团划分的图像分割方法.小型微型计算机系统.2018,(11),2533-2537.梁礼明;黄朝林;石霏;吴健;江弘九;陈新建.融合形状先验的水平集眼底图像血管分割.计算机学报.2016,(07),1678-1692.
-
公开(公告)号:CN111539438B
公开(公告)日:2024-01-12
申请号:CN202010349150.9
申请日:2020-04-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V30/14
Abstract: 本申请公开了一种文本内容的识别方法、装置及电子设备,涉及计算机技术领域中的文本识别技术。具体实现方案为:获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
-
公开(公告)号:CN112966522B
公开(公告)日:2022-10-14
申请号:CN202110235776.1
申请日:2021-03-03
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种图像分类方法,装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习方面。具体实现方案为:将待分类的文档图像输入到预先训练好的神经网络模型中,通过神经网络模型得到待分类的文档图像的各个文本框的特征子图;将各个文本框的特征子图与各个文本框的文本信息对应的语义特征和位置信息对应的位置特征输入至多模态特征融合模型中,通过多模态特征融合模型将三者融合为各个文本框对应的多模态特征;基于各个文本框对应的多模态特征对待分类的文档图像进行分类。本申请实施例能够很好地利用文档图像中存在的语义特征和位置特征,最终达到提升文档图像的分类精度的目的。
-
公开(公告)号:CN114821622A
公开(公告)日:2022-07-29
申请号:CN202210234230.9
申请日:2022-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/416 , G06V30/414 , G06V30/42 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种文本抽取方法、文本抽取模型训练方法、装置及设备,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:获取待检测图像的视觉编码特征;从待检测图像中提取多组多模态特征,其中,每组多模态特征包括从待检测图像中提取的一个检测框的位置信息、该检测框中的检测特征以及该检测框中的第一文本信息;基于视觉编码特征、待抽取属性以及多组多模态特征,从多组多模态特征包括的第一文本信息中,获取与待抽取属性匹配的第二文本信息,待抽取属性为需要被抽取的文本信息的属性。该方案可以对多种版式的证件票据进行文本信息抽取,提高了抽取效率。
-
公开(公告)号:CN113378580A
公开(公告)日:2021-09-10
申请号:CN202110697993.2
申请日:2021-06-23
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。
-
公开(公告)号:CN111783760A
公开(公告)日:2020-10-16
申请号:CN202010616043.8
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了文字识别的方法、装置、电子设备及计算机可读存储介质,涉及人工智能、深度学习、计算机视觉技术领域。具体实现方案为:确定从图像中识别出的每个单字的语义信息和第一位置信息;根据每个单字的语义信息和第一位置信息,构建图网络;根据图网络计算的每个单字的特征,确定图像的文字识别结果。本申请实施例的图网络由于对每个单字的语义信息和第一位置信息进行解码计算,因此通过两个维度的信息可以更加准确的识别出图像中的文字。
-
公开(公告)号:CN114495102B
公开(公告)日:2024-09-06
申请号:CN202210034363.1
申请日:2022-01-12
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了文本识别方法、文本识别网络的训练方法及装置,涉及图像处理技术领域,尤其涉及基于人工智能的文本识别技术领域。具体实现方案为:确定待识别图像对应的编码后的序列特征;基于所述编码后的序列特征和文本实例对应的字符特征,确定解码后的序列向量;基于所述解码后的序列向量,确定所述待识别图像中包括的文本;其中,所述文本实例包括预设的至少一个字符;所述字符包括字母、数字、符号、文字中至少一种。
-
公开(公告)号:CN111860479B
公开(公告)日:2024-03-26
申请号:CN202010550694.1
申请日:2020-06-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/148 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/045 , G06N3/09
Abstract: 本申请公开了光学字符识别方法、装置、电子设备及存储介质,涉及人工智能领域和深度学习领域,其中的方法可包括:针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从待识别的图片中提取出文本区域图片;确定出文本区域图片中的文本行的包围框,根据所述包围框从文本区域图片中提取出文本行图片;对文本行图片进行文本序列识别,得到识别结果。应用本申请所述方案,可提升识别速度等。
-
公开(公告)号:CN111782839B
公开(公告)日:2023-08-22
申请号:CN202010616417.6
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/532 , G06F16/583 , G06F40/30 , G06V10/80 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/08 , G06V10/70 , G06N5/045
Abstract: 本公开提供了一种图像问答方法。涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;检测输入图像中的至少一个文本区域各自的视觉信息和位置信息;基于上述视觉信息和位置信息,确定上述至少一个文本区域各自的语义信息和属性信息;基于上述视觉信息、位置信息、语义信息和属性信息,确定输入图像的全局特征;基于输入问题,确定问题特征;并且,基于全局特征和问题特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
-
-
-
-
-
-
-
-