-
公开(公告)号:CN116110056B
公开(公告)日:2023-09-26
申请号:CN202211710611.6
申请日:2022-12-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种信息抽取方法及装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及图像处理领域。具体实现方案为:获取文档图像对应的视觉文本特征;采用单元压缩Transformers网络对所述视觉文本特征进行编码,得到处理后的特征,以使任一层Transformer的输入特征长度与输出特征长度相同;根据所述视觉文本特征对应的结构信息,对所述处理后的特征进行信息抽取,获取所述文档图像对应的信息抽取结果。采用上述方案的本公开可以降低模型计算量的同时提高信息抽取的准确性。
-
公开(公告)号:CN115130473B
公开(公告)日:2023-08-25
申请号:CN202210419163.8
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06F18/25 , G06V30/416 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/0895
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
公开(公告)号:CN113361578B
公开(公告)日:2023-08-04
申请号:CN202110602898.X
申请日:2021-05-31
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/70 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本公开提出了图像处理模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习等技术领域,可应用于图像识别场景下。具体实现方案:获取多个训练数据,并对目标搜索空间内的网络模型集合进行搜索,以得到候选网络模型,候选网络模型包括:多个计算层,并确定与多个计算层分别对应的多个敏感程度值;根据多个敏感程度值处理候选网络模型,以得到待训练网络模型,以及采用多个训练数据训练待训练网络模型,以得到图像处理模型,能够有效地简化图像处理模型的结构,从而有效地提升图像处理模型的训练效率,有效地辅助提升图像处理效果。
-
公开(公告)号:CN116503686A
公开(公告)日:2023-07-28
申请号:CN202310318509.X
申请日:2023-03-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V10/774 , G06T5/00
Abstract: 本公开提供了图像矫正模型的训练方法、图像矫正方法、装置及介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;基于目标损失调整图像矫正模型的参数。本公开实施例中,基于第一损失使得图像矫正模型输出的偏移图能够关心图像中心区域,基于第二损失使得偏移图能够适应复杂的背景和边缘的形变,由此训练得到的图像矫正模型,具有很好的泛化能力和鲁棒性。
-
公开(公告)号:CN116311298A
公开(公告)日:2023-06-23
申请号:CN202310023539.8
申请日:2023-01-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/19
Abstract: 本公开提供了一种信息生成方法、信息处理方法、装置、电子设备以及介质,涉及人工智能技术领域,尤其涉及深度学习技术、图像处理技术和计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:对文本图像进行文本检测,得到检测信息,检测信息包括多个文本区域各自的类别信息和位置信息;根据位置信息和文本图像,获取与多个文本区域各自对应的文本区域图像;对文本区域图像进行文本识别,得到识别信息,识别信息包括多个文本区域图像各自的文本识别信息;根据识别信息,确定语义关系信息,语义关系信息包括多个文本识别信息之间的语义关系;根据类别信息、语义关系信息和识别信息,生成文本图像的结构化信息。
-
公开(公告)号:CN115294349B
公开(公告)日:2023-06-02
申请号:CN202210751884.9
申请日:2022-06-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了训练模型的方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对原始图像进行掩码处理,得到掩码图像;基于预设模型对掩码图像进行编码处理,得到编码序列;基于编码序列进行图像重建,得到重建图像;基于重建图像及原始图像对预设模型的模型参数进行调整,得到目标模型。
-
公开(公告)号:CN116152817A
公开(公告)日:2023-05-23
申请号:CN202211742761.5
申请日:2022-12-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/18 , G06V30/414 , G06V30/42
Abstract: 本公开提供了一种信息处理方法、装置、设备、介质和程序产品,涉及人工智能技术领域,具体为深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。在本公开的一些实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
-
公开(公告)号:CN115984888A
公开(公告)日:2023-04-18
申请号:CN202310023575.4
申请日:2023-01-06
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/414 , G06V30/19 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种信息生成方法、信息处理方法、装置、电子设备以及介质,涉及人工智能技术领域,尤其涉及深度学习技术、图像处理技术和计算机视觉技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:对文本图像进行文本检测,得到检测信息,其中,检测信息包括第一检测信息和第二检测信息,第一检测信息包括多个第一文本区域各自的类别信息和第一位置信息,第二检测信息包括至少一个第二文本区域各自的第二位置信息;根据第一位置信息和文本图像,获取与多个第一文本区域各自对应的文本区域图像;对文本区域图像进行文本识别,得到识别信息;根据类别信息、第二检测信息和识别信息,生成文本图像的结构化信息。
-
公开(公告)号:CN115187995B
公开(公告)日:2023-04-18
申请号:CN202210807745.3
申请日:2022-07-08
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/16 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文档矫正方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉等技术领域,可应用于OCR等场景。文档矫正方法的具体实现方案为:对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;基于边缘像素点,确定第一边缘线;根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;对第一边缘线和网格图像的第二边缘线进行等分处理,分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点;以及根据第一关键点和第二关键点之间的对应关系,生成目标图像。
-
公开(公告)号:CN114818708B
公开(公告)日:2023-04-18
申请号:CN202210419183.5
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06V30/414 , G06V30/416 , G06V30/19 , G06V10/766 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0895
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:对第一图像进行特征处理,得到所述第一图像中第一文档的第一语义特征,所述第一语义特征是对所述第一图像的第一图像特征进行语义编码得到的,所述第一文档包括文本行;截取所述第一语义特征中所述文本行的区域特征进行解码,得到所述文本行的第一识别信息,所述第一识别信息包括所述文本行的第一文本序列和所述第一文本序列中各文本单元的第一类别标记;从所述第一文本序列中抽取关键信息,所述关键信息包括所述第一文本序列中第一类别标记表征为命名实体的文本单元。
-
-
-
-
-
-
-
-
-