-
公开(公告)号:CN115130473A
公开(公告)日:2022-09-30
申请号:CN202210419163.8
申请日:2022-04-20
Applicant: 北京百度网讯科技有限公司
IPC: G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06V30/416
Abstract: 本公开提供了一种关键信息抽取方法、模型训练方法、相关装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:获取第一图像中第一文档的第一特征,所述第一特征是基于所述第一文档的文本特征和所述第一文档的文本行的视觉特征拼接得到的;对所述第一特征进行语义增强,得到所述第一文档的第二特征;基于所述第二特征对所述第一文档进行关键信息抽取。
-
公开(公告)号:CN113657274B
公开(公告)日:2022-09-20
申请号:CN202110945523.3
申请日:2021-08-17
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/413 , G06V30/414 , G06V30/148
Abstract: 本公开提供了一种表格生成方法、装置、电子设备及存储介质,涉及人工智能领域;具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。具体实现方案为:识别待识别图像中的至少一个表格对象,获得所述至少一个表格对象分别对应的表格属性;其中,任一个表格对象的表格属性包括单元格属性或非单元格属性;确定所述至少一个表格对象中具有单元格属性的至少一个目标对象;确定所述至少一个目标对象分别对应的单元格区域,获得所述至少一个目标对象分别对应的单元格位置信息;根据所述至少一个目标对象分别对应的单元格位置信息,生成所述待识别图像对应的电子表格。本公开的技术方案提高了表格生成精度。
-
公开(公告)号:CN114842489A
公开(公告)日:2022-08-02
申请号:CN202210521847.9
申请日:2022-05-13
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V30/413 , G06V10/44
Abstract: 本公开提供了一种表格解析方法、装置、设备、存储介质以及计算机程序产品,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取待解析的表格图像;对表格图像进行特征提取,得到多个字段特征;对多个字段特征进行行列分类,得到每个字段特征的行列属性;基于行列属性,对多个字段特征对应的文本进行排列,得到解析后的文本表格。提高了表格解析的准确性。
-
公开(公告)号:CN114358198A
公开(公告)日:2022-04-15
申请号:CN202210022268.X
申请日:2022-01-10
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种实例分割方法、装置及电子设备,涉及人工智能技术领域,具体涉及深度学习、计算机视觉、自然语言处理技术领域。具体实现方案为:获取M个第一特征,每个第一特征基于待分割图像在一个网络层级提取的视觉特征和待分割对象的语言表达信息的语言特征融合得到,所述待分割图像包括所述待分割对象的图像内容,M为大于1的整数;将所述M个第一特征进行不同网络层级之间的特征融合,得到M个第二特征;将所述M个第二特征进行特征融合,得到目标特征;基于所述目标特征对所述待分割图像进行实例分割,得到所述待分割图像中所述待分割对象的实例分割结果。
-
公开(公告)号:CN114037991A
公开(公告)日:2022-02-11
申请号:CN202111310505.4
申请日:2021-11-03
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/14 , G06V20/62 , G06V30/18 , G06V30/19 , G06K9/62 , G06V10/82 , G06T7/00 , G06N3/04 , G06N3/08
Abstract: 本公开提供了一种图像质量的确定方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于光学特征识别等场景。具体实现方案为:确定目标图像在不同维度的特征信息;根据图像识别需求,从不同维度的特征信息中确定目标维度的特征信息;利用目标维度的特征信息,确定目标图像的质量。可以实现有效的控制图像识别中的输入图像的质量的效果。
-
公开(公告)号:CN112784829A
公开(公告)日:2021-05-11
申请号:CN202110084184.4
申请日:2021-01-21
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。
-
公开(公告)号:CN112001368A
公开(公告)日:2020-11-27
申请号:CN202011049097.7
申请日:2020-09-29
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请实施例公开了文字结构化提取方法、装置、设备以及存储介质,涉及计算机视觉、深度学习、自然语言处理等人工智能领域。该方法的一具体实施方式包括:对实体文本图像进行文字检测,得到实体文本图像的文字行的位置和内容;基于文字行的位置和内容,提取文字行的多元信息;对文字行的多元信息进行特征融合,得到文字行的多模态融合特征;基于文字行的多模态融合特征进行类别和关系推理,得到文字行的类别和关系概率矩阵;基于文字行的类别和关系概率矩阵,构建实体文本图像的结构化信息。该实施方式提供了一种基于类别和关系推理的文字结构化提取方法,适合大规模、自动化处理,应用范围广,且通用性强。
-
公开(公告)号:CN111782838A
公开(公告)日:2020-10-16
申请号:CN202010616310.1
申请日:2020-06-30
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/532 , G06F16/583 , G06F40/30 , G06K9/00 , G06K9/46 , G06K9/62 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本公开提供了一种图像问答方法,涉及计算机视觉、自然语言处理领域。该方法包括:获取输入图像和输入问题;基于输入图像,构建视觉图,视觉图包括第一节点特征和第一边特征;基于输入问题,构建问题图,问题图包括第二节点特征和第二边特征;对视觉图和问题图进行多模态融合,以得到更新视觉图和更新问题图;基于输入问题,确定问题特征;基于更新视觉图、更新问题图和问题特征,确定融合特征;并且,基于融合特征,生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。
-
公开(公告)号:CN113239807B
公开(公告)日:2024-04-02
申请号:CN202110527551.3
申请日:2021-05-14
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/412 , G06V20/62 , G06V30/18 , G06V10/44 , G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了训练票据识别模型和票据识别的方法和装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:获取训练样本集和初始模型;将选取的训练样本的样本票据图像输入第一特征提取层中,得到第一特征图;将第一特征图输入第一头部层,得到文字框的位置;将第一特征图输入第二特征提取层中,得到第二特征图;将第二特征图输入第二头部层,得到键值对;根据文字框的位置确定出键值对在选取的样本票据图像中对应的字段区域;基于标注信息和字段区域,确定损失值;响应于损失值小于预定阈值,将初始模型确定为票据识别模型。该实施方式可以快速、准确地从票据图像中提取出感兴趣的字段。
-
公开(公告)号:CN116431767B
公开(公告)日:2024-01-16
申请号:CN202310443321.8
申请日:2023-04-21
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/33 , G06F16/583 , G06F18/25 , G06F18/213 , G06N3/0464 , G06N3/08
Abstract: 本公开提供了文本图像查询方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、光学字符识别、深度学习等技术领域。该文本图像查询方法的具体实现方案为:提取待查询文本图像的图像特征和文本特征;基于注意力策略,对图像特征和文本特征进行融合,得到多模态特征,其中,多模态特征包括文本语义信息和文本排版风格信息;以及根据多模态特征,从文本图像库中查询目标文本图像,其中,目标文本图像的多模态特征与待查询文本图像的多模态特征之间的相似度满足预定条件。
-
-
-
-
-
-
-
-
-