-
公开(公告)号:CN118799897A
公开(公告)日:2024-10-18
申请号:CN202410867440.0
申请日:2024-06-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图表解析训练样本的构建、一种图表解析模型的微调以及一种图表解析方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习以及大模型等技术领域。具体实现方案为:根据多个数据领域和多个图表类型,构建得到多项图表数据;生成与各图表数据对应的多张图表图像;根据每张图表图像所使用的图表视觉元素,建立与每张所述图表图像对应的细粒度标签,并根据每张所述图表图像所使用图表数据和细粒度标签,构建与各图表图像对应的图表结构化数据。
-
公开(公告)号:CN116259064B
公开(公告)日:2024-05-17
申请号:CN202310259267.1
申请日:2023-03-09
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了表格结构识别方法、表格结构识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。该表格结构识别方法具体实现方案为:提取待识别表格图像的图像特征;基于注意力机制,根据预定网格线信息和图像特征,得到网格线特征,网格线特征包括与待识别表格图像的表格结构相对应的多个网格线之间的相对位置关系特征和多个网格线的结构特征;对网格线特征进行检测,得到多个网格线之间的相对位置关系和多个网格线的结构信息;基于相对位置关系和结构信息,得到表格结构。
-
公开(公告)号:CN114708580B
公开(公告)日:2024-04-16
申请号:CN202210367897.6
申请日:2022-04-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/22 , G06V30/226 , G06V30/186 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08 , G06N3/048
Abstract: 本公开提供了文本识别、模型训练方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可用于OCR场景。具体实现方案为:获取待识别的文本图像,对所述文本图像进行特征提取,得到所述文本图像对应的图像特征;所述图像特征在高度和宽度方向上的特征维度数均大于1,根据所述图像特征,确定所述文本图像中的多个采样点对应的采样特征,根据所述多个采样点对应的采样特征,确定所述文本图像对应的字符识别结果。本公开提供的技术方案,针对包含任意形态字符的文本图像,均能够提高字符识别结果的准确性。
-
公开(公告)号:CN114840656B
公开(公告)日:2024-03-01
申请号:CN202210550630.0
申请日:2022-05-18
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/332 , G06F16/583 , G06F40/30 , G06V30/14 , G06V30/18
Abstract: 本公开提供了一种视觉问答方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取文本图像和针对所述文本图像的目标问题;确定所述文本图像中的文本内容,以及所述文本内容的位置信息;根据所述文本内容的第一词向量和位置信息,以及所述目标问题的第二词向量,确定所述文本内容的空间语义特征;根据所述空间语义特征,确定所述目标问题的答复内容。通过上述技术方案,可以提升文本视觉问答的准确性。
-
公开(公告)号:CN113313111B
公开(公告)日:2024-02-13
申请号:CN202110594748.9
申请日:2021-05-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/413
Abstract: 本公开提供了一种文本识别方法、装置、设备和介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可应用于OCR场景下。该文本识别方法包括:获取待检测图像;将待检测图像输入训练好的文本检测网络模型,获取文本检测网络模型输出的一个或多个检测框,一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本;以及对待检测图像中的位于一个或多个检测框内的目标文本进行识别。
-
公开(公告)号:CN114998881B
公开(公告)日:2023-11-07
申请号:CN202210596310.9
申请日:2022-05-27
Applicant: 北京百度网讯科技有限公司
IPC: G06V20/62 , G06V30/19 , G06V30/246 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取样本图像,其中,样本图像设置有标签,标签指示样本图像中的文本信息以及文本信息的语种信息;将样本图像输入到深度学习模型,得到针对多个解码分支的文本识别结果,其中,多个解码分支与多个语种各自对应;根据标签指示的语种信息,从多个解码分支的文本识别结果中确定目标文本识别结果;以及根据标签指示的文本信息与目标文本识别结果之间的差异,调整深度学习模型的参数。本公开还提供了一种文本识别方法、装置、电子设备和存储介质。
-
公开(公告)号:CN113903036B
公开(公告)日:2023-11-03
申请号:CN202111329026.7
申请日:2021-11-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法、装置、电子设备、介质及产品,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于文字识别技术领域。具体实现方案为:获取待识别图片,然后基于待识别图片的长度确定滑窗,并利用滑窗对待识别图片进行裁剪,得到多个子图片,其中滑窗的宽度为待识别图片的宽度,滑窗的长度为指定长度,相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型,得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果,确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。
-
公开(公告)号:CN112508003B
公开(公告)日:2023-10-13
申请号:CN202011506446.3
申请日:2020-12-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/146 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种字符识别处理方法和装置,涉及深度学习技术领域、图像处理技术领域。具体实现方案为:对样本图片集合中每张图片里的字符标注字符区域;标注与每个字符区域对应的字符类别和字符位置编码;根据标注字符区域的样本图片集合,以及与每个字符区域对应的字符类别和字符位置编码,训练预设的用于字符识别的神经网络模型。由此,实现了对图片中字符顺序的识别,提高了字符识别的精度。
-
公开(公告)号:CN114998897B
公开(公告)日:2023-08-29
申请号:CN202210662775.X
申请日:2022-06-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/148 , G06V30/19 , G06N3/08 , G06N3/04
Abstract: 本公开提供了生成样本图像的方法以及文字识别模型的训练方法,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于光学字符识别等场景。具体实现方案为:根据初始图像,生成第一背景图像和第一文字;其中,第一背景图像为初始图像中的所述第一文字被替换为目标图像所得到的。对第一背景图像进行调整,生成与第一背景图像相似的第二背景图像;对第一文字进行调整,生成与第一文字相似的第二文字。根据第二背景图像和第二文字,生成第一样本图像;对第一样本图像进行真实化处理,得到第二样本图像,进而增加最终得到的第二样本图像,提高训练得到的文字识别模型的准确度。
-
公开(公告)号:CN115171110B
公开(公告)日:2023-08-22
申请号:CN202210776958.4
申请日:2022-06-30
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法及装置、设备、介质和产品,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案包括:确定图像序列中的第一文本图像的待识别文本行;对待识别文本行进行切分,得到候选文本片区;根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区,确定候选文本片区中的第二有效文本片区;以及对第二有效文本片区进行识别,得到第一文本图像的文本识别结果。
-
-
-
-
-
-
-
-
-