-
公开(公告)号:CN111695518A
公开(公告)日:2020-09-22
申请号:CN202010538181.9
申请日:2020-06-12
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/00 , G06K9/62 , G06F40/186 , G06F40/30
Abstract: 本申请公开了结构化文档信息标注的方法、装置及电子设备,涉及人工智能领域、深度学习领域以及大数据领域。具体实现方案为:获取结构化文档的模板图像以及所述模板图像的至少一个待填充字段的标注信息,所述标注信息包括所述待填充字段的属性值、历史内容以及所述待填充字段在所述模板图像中的历史位置。根据所述待填充字段的属性值、所述待填充字段的历史内容以及所述待填充字段在模板图像中的历史位置,生成所述待填充字段的目标填充信息。根据所述待填充字段的目标填充信息,得到标注的结构化文档的图像。该方法能够实现结构化文档的快速准确的标注。
-
公开(公告)号:CN116597454B
公开(公告)日:2024-07-12
申请号:CN202310597526.1
申请日:2023-05-24
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。
-
公开(公告)号:CN114445833B
公开(公告)日:2024-05-14
申请号:CN202210110387.0
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本识别方法,涉及人工智能技术领域,尤其涉及深度学习技术和计算机视觉技术。具体实现方案为:根据待处理图像的文本特征,得到文本特征图;对待处理图像进行视觉特征提取,得到视觉特征;根据文本特征图和视觉特征,得到待处理图像中的融合文档特征;以及根据融合文档特征,识别待处理图像中的文本。本公开还提供了一种文本识别装置、电子设备和存储介质。
-
公开(公告)号:CN111782838B
公开(公告)日:2024-04-05
申请号:CN202010616310.1
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06N5/04 , G06F18/25 , G06F40/30 , G06V20/70 , G06V10/44 , G06V10/74 , G06V10/82 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/0985
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括第一节点特征和第一边特征;基于输入问题,构建问题图,问题图包括第二节点特征和第二边特征;对视觉图和问题图进行多模态融合,以得到更新视觉图和更新问题图;基于输入问题,确定问题特征;基于更新视觉图、更新问题图和问题特征,确定融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN116486420B
公开(公告)日:2024-01-12
申请号:CN202310389021.6
申请日:2023-04-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/41 , G06V30/40 , G06V30/19 , G06V10/82 , G06F40/279 , G06F40/30 , G06N3/045 , G06N3/0464
Abstract: 本公开提供了一种文档图像的实体抽取方法及装置,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。具体实现方案为:获取待分析文档图像,并获取待分析文档图像的多模态特征编码;将多模态特征编码输入至动态交互Transformer网络,生成语义表示融合特征;根据语义表示融合特征,得到待分析文档图像中每个文字对应的序列标记和实体标记;根据每个文字对应的序列标记和实体标记,得到待分析文档图像的实体抽取结果。本公开实施例的通过动态交互Transformer网络生成的语义表示融合特征(56)对比文件Wang Wenshan et al..Dynamicinteraction networks for image-textmultimodal learning《.Neurocomputing》.2020,第379卷262-272.李晓腾.面向社交媒体的命名实体识别方法研究《.中国优秀硕士学位论文全文数据库 (信息科技辑)》.2023,第I138-4297页.
-
公开(公告)号:CN116152817B
公开(公告)日:2024-01-02
申请号:CN202211742761.5
申请日:2022-12-30
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/18 , G06V30/414 , G06V30/42
Abstract: 本公开提供了一种信息处理方法、装置、设备、介质和程序产品,涉及人工智能技术领域,具体为深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。在本公开的一些实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
-
公开(公告)号:CN111695517B
公开(公告)日:2023-08-18
申请号:CN202010538176.8
申请日:2020-06-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/14 , G06V30/18 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/045 , G06N3/0442 , G06N3/08
Abstract: 本申请实施例公开了一种图像的表格提取方法、装置、电子设备、存储介质及表格提取模型的训练方法,涉及人工智能和云计算技术领域,包括:获取待处理图像,根据表格提取模型,生成待处理图像的表格,其中,表格提取模型为根据样本图像的字段位置特征、图像特征及文本特征得到的,将待处理图像的文本信息填入至表格,一方面,通过字段位置特征,可以确定各字段在位置上的关联关系,可以适用于至少部分虚线框表格的图像,实现了提高表格识别的灵活性和广泛性的技术效果;另一方面,由于充分考虑了字段位置特征、图像特征及文本特征,即通过对待处理图像从多个维度进行分析,得到多个维度的特征,从而可以提高表格识别的准确性和可靠性的技术效果。
-
公开(公告)号:CN112966140B
公开(公告)日:2023-08-08
申请号:CN202110260014.7
申请日:2021-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/583 , G06F40/126 , G06F40/289 , G06F40/30 , G06V20/62 , G06V30/19 , G06V10/80
Abstract: 本公开公开了字段识别方法、装置、电子设备、存储介质和程序产品,涉及人工智能领域,具体为计算机视觉和深度学习技术,可应用于OCR场景下。具体实现方案为:预测图像数据包括的多个字段;提取每个字段的特征信息;基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。本公开可以提高图像数据的字段识别效果。
-
公开(公告)号:CN116524516A
公开(公告)日:2023-08-01
申请号:CN202310278136.8
申请日:2023-03-20
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文本结构化信息确定方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:确定字段图像的视觉特征以及所述字段图像的初始文本识别结果;根据所述视觉特征和所述初始文本识别结果,对所述初始文本识别结果进行矫正,得到矫正文本识别结果;根据所述字段图像对应的字段类别和所述矫正文本识别结果,确定所述字段图像的文本结构化信息。通过上述技术方案,能够提高确定文本结构化信息的准确率。
-
公开(公告)号:CN114724156B
公开(公告)日:2023-07-25
申请号:CN202210419150.0
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/413 , G06V30/19 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048
Abstract: 本公开提供了一种表单识别方法、装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取待识别图像,所述待识别图像包括目标表单的图像内容,所述目标表单包括M个文本实体单元;基于所述待识别图像获取所述目标表单的第一特征;基于所述第一特征,对所述M个文本实体单元进行实体分类,得到每个文本实体单元的实体类别;基于所述第一特征,对所述M个文本实体单元中不同文本实体单元之间的关联关系进行预测,得到所述M个文本实体单元的关系信息,所述关联关系用于表征不同文本实体单元之间是否存在关联;基于所述实体类别和所述关系信息,输出所述目标表单的表单信息。
-
-
-
-
-
-
-
-
-