样本数据集的生成方法、装置及电子设备

    公开(公告)号:CN114529909A

    公开(公告)日:2022-05-24

    申请号:CN202210148525.4

    申请日:2022-02-17

    Abstract: 本公开提供了样本数据集的生成方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别场景。具体实现方案为:获取原始图像,其中,原始图像中至少包括文本区域;对原始图像进行色彩变换处理,得到至少一个第一图像;对至少一个第一图像进行裁剪处理,得到多个第一子图像;对多个第一子图像进行贴合处理,得到多个目标图像;基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。

    视觉问答方法、装置、电子设备以及存储介质

    公开(公告)号:CN114445826A

    公开(公告)日:2022-05-06

    申请号:CN202210110386.6

    申请日:2022-01-28

    Abstract: 本公开提供了一种视觉问答方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于图像处理等场景。具体实现方案为:对文本图像的文本图像数据进行处理,得到文本图像的至少一个文本区域各自的局部视觉特征;对待回答问题的待回答问题数据和文本图像的至少一个文本区域进行语义特征提取,得到多个文本区域各自的浅层语义特征;根据多个文本区域各自的浅层语义特征、局部视觉特征和位置特征,得到多个文本区域各自的深层语义特征;对多个文本区域各自的深层语义特征进行处理,生成针对待回答问题的答案。

    文档分类的方法、装置、电子设备和存储介质

    公开(公告)号:CN113742483A

    公开(公告)日:2021-12-03

    申请号:CN202110994014.X

    申请日:2021-08-27

    Abstract: 本公开提供了一种文档分类的方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。具体实现方案为:一种文档分类的方法,包括:获取待处理文档包括的文本的文本信息和图像信息;基于所述文本信息和所述图像信息进行融合得到融合特征;根据所述融合特征获取所述文本的特征序列;基于预先定义的文档类别和所述特征序列,确定所述待处理文档的类别。本公开提供的技术方案解决了文档分类中的文档混淆的技术问题,提升了分类的精度。

    训练票据识别模型和票据识别的方法和装置

    公开(公告)号:CN113239807A

    公开(公告)日:2021-08-10

    申请号:CN202110527551.3

    申请日:2021-05-14

    Abstract: 本公开提供了训练票据识别模型和票据识别的方法和装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于图像识别场景下。具体实现方案为:获取训练样本集和初始模型;将选取的训练样本的样本票据图像输入第一特征提取层中,得到第一特征图;将第一特征图输入第一头部层,得到文字框的位置;将第一特征图输入第二特征提取层中,得到第二特征图;将第二特征图输入第二头部层,得到键值对;根据文字框的位置确定出键值对在选取的样本票据图像中对应的字段区域;基于标注信息和字段区域,确定损失值;响应于损失值小于预定阈值,将初始模型确定为票据识别模型。该实施方式可以快速、准确地从票据图像中提取出感兴趣的字段。

    字段识别方法、装置、电子设备、存储介质和程序产品

    公开(公告)号:CN112966140A

    公开(公告)日:2021-06-15

    申请号:CN202110260014.7

    申请日:2021-03-10

    Abstract: 本公开公开了字段识别方法、装置、电子设备、存储介质和程序产品,涉及人工智能领域,具体为计算机视觉和深度学习技术,可应用于OCR场景下。具体实现方案为:预测图像数据包括的多个字段;提取每个字段的特征信息;基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。本公开可以提高图像数据的字段识别效果。

    一种票据图像识别方法、装置、设备及存储介质

    公开(公告)号:CN111709339A

    公开(公告)日:2020-09-25

    申请号:CN202010517447.1

    申请日:2020-06-09

    Abstract: 本申请公开了一种票据图像识别方法、装置、设备及存储介质,涉及人工智能深度学习和图像处理领域。具体实现方案为:对票据图像进行文本检测,确定所述票据图像中的至少两个文本框的属性信息集和关系信息集;根据所述文本框的属性信息集和关系信息集,确定所述文本框的类型,以及与所述文本框存在结构关系的关联文本框;根据所述文本框的类型,以及与所述文本框存在结构关系的关联文本框,提取所述票据图像的结构化票据数据。本申请实施例的方案能够支持自动识别多种不同版本的票据图像,且识别过程无需借助模板,提高了票据图像识别的通用性和准确性。

    文字框融合方法、装置、设备以及存储介质

    公开(公告)号:CN111680628A

    公开(公告)日:2020-09-18

    申请号:CN202010518207.3

    申请日:2020-06-09

    Abstract: 本申请实施例公开了文字框融合方法、装置、设备以及存储介质,涉及深度学习、文字检测技术领域。该方法的一具体实施方式包括:获取待融合文字候选框;计算待融合文字候选框的特征点与四角点的归一化距离,作为待融合文字候选框的初始化权重;基于待融合文字候选框的初始化权重融合待融合文字候选框,得到融合文字候选框。该实施方式采用特征点与四角点的归一化距离作为权重,以融合文字候选框,能够为每个角点分配不同的权重值,显著提升了对长文字行的融合效果。

    一种视觉问答方法、装置、设备及存储介质

    公开(公告)号:CN114840656B

    公开(公告)日:2024-03-01

    申请号:CN202210550630.0

    申请日:2022-05-18

    Abstract: 本公开提供了一种视觉问答方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取文本图像和针对所述文本图像的目标问题;确定所述文本图像中的文本内容,以及所述文本内容的位置信息;根据所述文本内容的第一词向量和位置信息,以及所述目标问题的第二词向量,确定所述文本内容的空间语义特征;根据所述空间语义特征,确定所述目标问题的答复内容。通过上述技术方案,可以提升文本视觉问答的准确性。

Patent Agency Ranking