-
公开(公告)号:CN113780098B
公开(公告)日:2024-02-06
申请号:CN202110945259.3
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/413 , G06V30/414 , G06V30/416 , G06V30/18 , G06N3/02
Abstract: 本公开提供了文字识别方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:采用骨干网络对待识别的目标图像进行特征提取,得到特征图;将特征图输入第一网络,以预测特征图中的各特征点是否属于文本框,以及所属的文本框在目标图像中的位置;将特征图输入第二网络,以预测特征图中各特征点所属文本框之间的关联关系;根据各文本框的位置,对目标图像中对应图像内容进行文字识别,得到各文本框对应的文字内容;根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息。由此,提高了文字识别的准确性。
-
公开(公告)号:CN111695518B
公开(公告)日:2023-09-29
申请号:CN202010538181.9
申请日:2020-06-12
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/40 , G06V30/19 , G06F40/186 , G06F40/30
Abstract: 本申请公开了结构化文档信息标注的方法、装置及电子设备,涉及人工智能领域、深度学习领域以及大数据领域。具体实现方案为:获取结构化文档的模板图像以及所述模板图像的至少一个待填充字段的标注信息,所述标注信息包括所述待填充字段的属性值、历史内容以及所述待填充字段在所述模板图像中的历史位置。根据所述待填充字段的属性值、所述待填充字段的历史内容以及所述待填充字段在模板图像中的历史位置,生成所述待填充字段的目标填充信息。根据所述待填充字段的目标填充信息,得到标注的结构化文档的图像。该方法能够实现结构化文档的快速准确的标注。
-
公开(公告)号:CN113343982B
公开(公告)日:2023-07-25
申请号:CN202110666465.0
申请日:2021-06-16
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/148 , G06V30/18 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08 , G06V30/262 , G06F40/295 , G06F40/247
Abstract: 根据本公开的实施例,提供了一种多模态特征融合的实体关系提取的方法、装置、设备、介质和程序产品。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的区域视觉语义特征;基于区域视觉语义特征,确定多个区域的关系信息,关系信息至少指示多个区域中的任意两个区域之间的关联程度;基于关系信息,将多个区域中的区域相关联;针对获取的实体,提取实体关系。由此能够提升文本识别的准确率。
-
公开(公告)号:CN111767379B
公开(公告)日:2023-06-27
申请号:CN202010603698.1
申请日:2020-06-29
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/432 , G06F18/25 , G06F40/211 , G06F40/30 , G06N3/0464 , G06N3/08 , G06F16/332
Abstract: 本申请公开了图像问答方法、装置、设备以及存储介质,涉及图像处理、计算机视觉、深度学习以及自然语言处理技术领域。具体实现方案为:根据查询语句,构建具有拓扑结构的问题图以及提取查询语句的问题特征;根据与查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图;根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。本申请实施例由于将基于目标图像和查询语句所构建视觉图、文本图和问题图进行跨模态的融合,因此可以获取到目标图像在不同模态下的关注点,从而能够在此基础上根据查询语句的意图更加准确的识别出图像问答的答案。
-
公开(公告)号:CN114707017B
公开(公告)日:2023-05-23
申请号:CN202210424711.6
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/583 , G06F16/532 , G06F16/9032
Abstract: 本公开提供了一种视觉问答方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景中。视觉问答方法的具体实现方案为:识别目标图像包括的文本,得到目标文本及目标文本在目标图像中的位置信息;根据位置信息提取目标图像的图像特征,得到针对目标文本的视觉特征序列;对根据目标文本和针对目标图像的问题文本得到的词序列进行编码,得到文本特征序列;以及根据文本特征序列和视觉特征序列构成的第一特征序列,确定针对问题文本的答案文本。
-
公开(公告)号:CN111680628B
公开(公告)日:2023-04-28
申请号:CN202010518207.3
申请日:2020-06-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请实施例公开了文字框融合方法、装置、设备以及存储介质,涉及深度学习、文字检测技术领域。该方法的一具体实施方式包括:获取待融合文字候选框;计算待融合文字候选框的特征点与四角点的归一化距离,作为待融合文字候选框的初始化权重;基于待融合文字候选框的初始化权重融合待融合文字候选框,得到融合文字候选框。该实施方式采用特征点与四角点的归一化距离作为权重,以融合文字候选框,能够为每个角点分配不同的权重值,显著提升了对长文字行的融合效果。
-
公开(公告)号:CN114429637B
公开(公告)日:2023-04-07
申请号:CN202210041761.6
申请日:2022-01-14
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了一种文档分类方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获得待分类文档的图像;提取所述图像的图像特征,并对所述图像进行文本检测,得到所述图像中的文本以及文本位置信息;获得所得文本的文本特征;按照各文本特征所对应文本的文本位置信息,将各文本特征融合至所述图像特征,得到融合特征;基于所述融合特征,对所述待分类文档进行分类。应用本公开实施例提供的方案,能够实现对文档的分类。
-
公开(公告)号:CN112837466B
公开(公告)日:2023-04-07
申请号:CN202011501307.1
申请日:2020-12-18
Applicant: 北京百度网讯科技有限公司
IPC: G07D7/20 , G06N3/0464 , G06N3/08
Abstract: 本申请公开了一种票据识别方法、装置、设备以及存储介质,涉及计算机视觉、自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括:获取票据图像;将票据图像输入预先训练的票据识别模型的特征提取网络层中,得到票据图像的票据关键字段特征图和票据关键字段值特征图;将票据关键字段特征图输入票据识别模型的第一头部网络层中,得到票据关键字段;利用票据识别模型的第二头部网络层对票据关键字段值特征图进行处理,得到票据关键字段值,其中,特征提取网络层分别与第一头部网络层和第二头部网络层连接;基于票据关键字段和票据关键字段值,生成票据图像的结构化信息。
-
公开(公告)号:CN115601620A
公开(公告)日:2023-01-13
申请号:CN202211304730.1
申请日:2022-10-24
Applicant: 北京百度网讯科技有限公司(CN)
Abstract: 本公开提供了特征融合方法、装置、电子设备及计算机可读存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、大模型、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一输入特征以及第二输入特征,第一输入特征以及第二输入特征均与目标分析对象的相关性满足预设的相关性条件;将第一输入特征以及第二输入特征输入预置的特征融合网络,得到第一交叉注意力特征以及第二交叉注意力特征。基于本方案提供的特征融合网络对第一输入特征以及第二输入特征进行特征融合处理,得到融合有第一输入特征的特性以及第二输入特征的特性的第一交叉注意力特征以及第二交叉注意力特征,能够提升特征融合的效果。
-
公开(公告)号:CN115294349A
公开(公告)日:2022-11-04
申请号:CN202210751884.9
申请日:2022-06-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了训练模型的方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对原始图像进行掩码处理,得到掩码图像;基于预设模型对掩码图像进行编码处理,得到编码序列;基于编码序列进行图像重建,得到重建图像;基于重建图像及原始图像对预设模型的模型参数进行调整,得到目标模型。
-
-
-
-
-
-
-
-
-