-
公开(公告)号:CN115358392B
公开(公告)日:2023-05-05
申请号:CN202211290027.X
申请日:2022-10-21
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR、大模型等场景。具体实现方案包括:利用待训练的深度学习网络,确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征;根据第一文本框特征、第二文本框特征和预设文本框特征序列,确定对比损失函数值;以及根据对比损失函数值,调整深度学习网络的模型参数,得到经训练的目标深度学习网络。
-
公开(公告)号:CN115984566A
公开(公告)日:2023-04-18
申请号:CN202310107778.1
申请日:2023-01-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/26 , G06V10/764 , G06V10/774 , G06T7/12 , G06T7/194 , G06T7/11 , G06V10/44 , G06V10/82 , G06N3/08 , G06N3/044 , G06N3/0464
Abstract: 本公开提供了一种图像分割模型的训练及图像分割方法、装置、设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR文字识别场景。具体实现方案为:对样本图像进行前景轮廓检测,并根据检测结果确定所述样本图像中的背景区域、前景区域以及所述前景区域的轮廓区域;获取分别对所述背景区域、所述前景区域以及所述轮廓区域中像素点进行标注的标准像素类型,并根据所述样本图像以及所述标准像素类型,对待训练模型进行训练生成图像分割模型。本公开实现了提高图像分割模型进行图像分割时的分割精准度的效果。
-
公开(公告)号:CN114937277B
公开(公告)日:2023-04-11
申请号:CN202210543075.9
申请日:2022-05-18
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/18 , G06V30/19 , G06V10/82
Abstract: 本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。
-
公开(公告)号:CN114863439B
公开(公告)日:2023-02-17
申请号:CN202210546057.6
申请日:2022-05-19
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06V30/18 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉等技术领域,可应用于OCR等场景。实现方案为:对第一文档图像进行编码,以得到多个尺度的目标特征图,并对查询信息进行编码,以得到目标文本特征;对目标特征图和目标文本特征进行融合,以得到目标融合特征;根据目标融合特征,提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此,可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息,以满足用户的实际提取需求,改善用户的使用体验;并且,通过自动提取结构化信息,可以提高待办事件的处理效率,支持企业办公智能化进程。
-
公开(公告)号:CN115497113A
公开(公告)日:2022-12-20
申请号:CN202211219460.4
申请日:2022-09-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种信息生成方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及图像处理、计算机视觉和深度学习技术领域,可应用于OCR等场景。具体实现方案为:对文本表格图像进行处理,得到文本表格图像中各文本区域的局部特征信息和文本识别信息;对局部特征信息进行列分类,得到各文本区域的列分类信息;根据局部特征信息,确定各文本区域之间的相似度;根据相似度,确定各文本区域的行分类信息;根据行分类信息、列分类信息和文本识别信息,生成文本表格图像的结构化信息。
-
公开(公告)号:CN113378580B
公开(公告)日:2022-11-01
申请号:CN202110697993.2
申请日:2021-06-23
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/30 , G06V30/413 , G06V10/44 , G06V10/764 , G06V10/80
Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。
-
公开(公告)号:CN114998897A
公开(公告)日:2022-09-02
申请号:CN202210662775.X
申请日:2022-06-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V30/148 , G06V30/19 , G06N3/08 , G06N3/04
Abstract: 本公开提供了生成样本图像的方法以及文字识别模型的训练方法,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于光学字符识别等场景。具体实现方案为:根据初始图像,生成第一背景图像和第一文字;其中,第一背景图像为初始图像中的所述第一文字被替换为目标图像所得到的。对第一背景图像进行调整,生成与第一背景图像相似的第二背景图像;对第一文字进行调整,生成与第一文字相似的第二文字。根据第二背景图像和第二文字,生成第一样本图像;对第一样本图像进行真实化处理,得到第二样本图像,进而增加最终得到的第二样本图像,提高训练得到的文字识别模型的准确度。
-
公开(公告)号:CN113657390B
公开(公告)日:2022-08-12
申请号:CN202110934294.5
申请日:2021-08-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V30/19 , G06V10/40
Abstract: 本公开提供了一种文本检测模型的训练方法和检测文本的方法,涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于图像处理和图像识别等场景下。训练方法包括:将样本图像输入文本检测模型的文本特征提取子模型,得到样本图像中文本的文本特征;该样本图像具有指示实际位置信息和实际类别的标签;将预定文本向量输入文本检测模型的文本编码子模型,得到文本参考特征;将文本特征和文本参考特征输入文本检测模型的解码子模型,得到文本序列向量;将文本序列向量输入文本检测模型的输出子模型,得到预测位置信息和预测类别;以及基于预测类别、实际类别、预测位置信息和实际位置信息,对文本检测模型进行训练。
-
公开(公告)号:CN114863439A
公开(公告)日:2022-08-05
申请号:CN202210546057.6
申请日:2022-05-19
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉等技术领域,可应用于OCR等场景。实现方案为:对第一文档图像进行编码,以得到多个尺度的目标特征图,并对查询信息进行编码,以得到目标文本特征;对目标特征图和目标文本特征进行融合,以得到目标融合特征;根据目标融合特征,提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此,可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息,以满足用户的实际提取需求,改善用户的使用体验;并且,通过自动提取结构化信息,可以提高待办事件的处理效率,支持企业办公智能化进程。
-
公开(公告)号:CN114648754A
公开(公告)日:2022-06-21
申请号:CN202210336292.0
申请日:2022-03-31
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种基于图像的文字识别方法、装置、设备、介质及产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可以应用于OCR((Optical Character Recognition,光学字符识别))等场景。具体实现方案为:确定待识别图像的图像特征;基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。本公开的技术方案提高了图像的文字识别精度。
-
-
-
-
-
-
-
-
-