-
公开(公告)号:CN114529909A
公开(公告)日:2022-05-24
申请号:CN202210148525.4
申请日:2022-02-17
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了样本数据集的生成方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别场景。具体实现方案为:获取原始图像,其中,原始图像中至少包括文本区域;对原始图像进行色彩变换处理,得到至少一个第一图像;对至少一个第一图像进行裁剪处理,得到多个第一子图像;对多个第一子图像进行贴合处理,得到多个目标图像;基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。
-
公开(公告)号:CN114445826A
公开(公告)日:2022-05-06
申请号:CN202210110386.6
申请日:2022-01-28
Applicant: 北京百度网讯科技有限公司
IPC: G06V30/19 , G06V30/18 , G06V10/80 , G06V10/82 , G06V10/764
Abstract: 本公开提供了一种视觉问答方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于图像处理等场景。具体实现方案为:对文本图像的文本图像数据进行处理,得到文本图像的至少一个文本区域各自的局部视觉特征;对待回答问题的待回答问题数据和文本图像的至少一个文本区域进行语义特征提取,得到多个文本区域各自的浅层语义特征;根据多个文本区域各自的浅层语义特征、局部视觉特征和位置特征,得到多个文本区域各自的深层语义特征;对多个文本区域各自的深层语义特征进行处理,生成针对待回答问题的答案。
-
公开(公告)号:CN113742483A
公开(公告)日:2021-12-03
申请号:CN202110994014.X
申请日:2021-08-27
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了一种文档分类的方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。具体实现方案为:一种文档分类的方法,包括:获取待处理文档包括的文本的文本信息和图像信息;基于所述文本信息和所述图像信息进行融合得到融合特征;根据所述融合特征获取所述文本的特征序列;基于预先定义的文档类别和所述特征序列,确定所述待处理文档的类别。本公开提供的技术方案解决了文档分类中的文档混淆的技术问题,提升了分类的精度。
-
公开(公告)号:CN113343982A
公开(公告)日:2021-09-03
申请号:CN202110666465.0
申请日:2021-06-16
Applicant: 北京百度网讯科技有限公司
IPC: G06K9/32 , G06K9/34 , G06K9/46 , G06K9/62 , G06K9/72 , G06N3/04 , G06N3/08 , G06F40/247 , G06F40/295
Abstract: 根据本公开的实施例,提供了一种多模态特征融合的实体关系提取的方法、装置、设备、介质和程序产品。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的区域视觉语义特征;基于区域视觉语义特征,确定多个区域的关系信息,关系信息至少指示多个区域中的任意两个区域之间的关联程度;基于关系信息,将多个区域中的区域相关联;针对获取的实体,提取实体关系。由此能够提升文本识别的准确率。
-
公开(公告)号:CN113239807A
公开(公告)日:2021-08-10
申请号:CN202110527551.3
申请日:2021-05-14
Applicant: 北京百度网讯科技有限公司
Abstract: 本公开提供了训练票据识别模型和票据识别的方法和装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:获取训练样本集和初始模型;将选取的训练样本的样本票据图像输入第一特征提取层中,得到第一特征图;将第一特征图输入第一头部层,得到文字框的位置;将第一特征图输入第二特征提取层中,得到第二特征图;将第二特征图输入第二头部层,得到键值对;根据文字框的位置确定出键值对在选取的样本票据图像中对应的字段区域;基于标注信息和字段区域,确定损失值;响应于损失值小于预定阈值,将初始模型确定为票据识别模型。该实施方式可以快速、准确地从票据图像中提取出感兴趣的字段。
-
公开(公告)号:CN112966140A
公开(公告)日:2021-06-15
申请号:CN202110260014.7
申请日:2021-03-10
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/583 , G06F40/126 , G06F40/289 , G06F40/30 , G06K9/32 , G06K9/62
Abstract: 本公开公开了字段识别方法、装置、电子设备、存储介质和程序产品,涉及人工智能领域,具体为计算机视觉和深度学习技术,可应用于OCR场景下。具体实现方案为:预测图像数据包括的多个字段;提取每个字段的特征信息;基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。本公开可以提高图像数据的字段识别效果。
-
公开(公告)号:CN112560754A
公开(公告)日:2021-03-26
申请号:CN202011546567.0
申请日:2020-12-23
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种票据信息的获取方法、装置、设备及存储介质,涉及计算机视觉和深度学习技术等人工智能领域。具体实现方案为:获取票据图像,并根据所述票据图像获取至少一个票据子图像和每个票据子图像的票据类型;根据所述票据类型,确定对应的票据子图像的至少一个信息提取区域以及每个信息提取区域的对应的信息类型;根据每个信息提取区域以及对应的信息类型,获取每个票据子图像的票据信息。无需耗费人力资源,且同时支持单贴和混贴的录入,录入效率较高,识别效果较好。
-
公开(公告)号:CN111709339A
公开(公告)日:2020-09-25
申请号:CN202010517447.1
申请日:2020-06-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。
-
公开(公告)号:CN111680628A
公开(公告)日:2020-09-18
申请号:CN202010518207.3
申请日:2020-06-09
Applicant: 北京百度网讯科技有限公司
Abstract: 本申请实施例公开了文字框融合方法、装置、设备以及存储介质,涉及深度学习、文字检测技术领域。该方法的一具体实施方式包括:获取待融合文字候选框;计算待融合文字候选框的特征点与四角点的归一化距离,作为待融合文字候选框的初始化权重;基于待融合文字候选框的初始化权重融合待融合文字候选框,得到融合文字候选框。该实施方式采用特征点与四角点的归一化距离作为权重,以融合文字候选框,能够为每个角点分配不同的权重值,显著提升了对长文字行的融合效果。
-
公开(公告)号:CN114840656B
公开(公告)日:2024-03-01
申请号:CN202210550630.0
申请日:2022-05-18
Applicant: 北京百度网讯科技有限公司
IPC: G06F16/332 , G06F16/583 , G06F40/30 , G06V30/14 , G06V30/18
Abstract: 本公开提供了一种视觉问答方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取文本图像和针对所述文本图像的目标问题;确定所述文本图像中的文本内容,以及所述文本内容的位置信息;根据所述文本内容的第一词向量和位置信息,以及所述目标问题的第二词向量,确定所述文本内容的空间语义特征;根据所述空间语义特征,确定所述目标问题的答复内容。通过上述技术方案,可以提升文本视觉问答的准确性。
-
-
-
-
-
-
-
-
-