文本识别模型的训练方法、文本识别方法及装置

    公开(公告)号:CN114399769A

    公开(公告)日:2022-04-26

    申请号:CN202210279539.X

    申请日:2022-03-22

    Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。

    内容识别方法、装置、电子设备及存储介质

    公开(公告)号:CN114120346A

    公开(公告)日:2022-03-01

    申请号:CN202111229111.6

    申请日:2021-10-21

    Abstract: 本公开提供了一种内容识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景下。具体实现方案为:获取待识别图像,确定待识别图像的内容类型,确定与内容类型相关的内容识别模型,以及采用内容识别模型对待识别图像进行内容识别,以得到目标内容。由此,实现根据内容类型灵活地筛选出匹配的内容识别模型,以辅助图像识别,从而实现对待识别图像进行针对性的识别处理,提升针对图像的内容识别效率,提升内容识别的灵活性,提升内容识别效果。

    图像识别模型的训练方法、装置、设备及存储介质

    公开(公告)号:CN113705554A

    公开(公告)日:2021-11-26

    申请号:CN202110934322.3

    申请日:2021-08-13

    Abstract: 本公开公开了一种图像识别模型的训练方法、装置、设备及存储介质,涉及计算机技术领域,具体涉及深度学习、计算机视觉等人工智能技术领域,具体实现方案为:获取训练数据集,其中,训练数据集包括非目标场景下各个垂类的第一文本图像、及目标场景下各个垂类的第二文本图像,所述第一文本图像中包含的文本内容的类型与第二文本图像中包含的文本内容的类型相同;利用第一文本图像对初始识别模型进行训练,以获取基础识别模型;利用第二文本图像对所述基础识别模型进行修正训练,以获取所述目标场景对应的图像识别模型。本公开采用非目标场景及目标场景下不同垂类的文本图像,训练得到针对目标场景的识别模型,有效提高了模型的识别精度及通用性。

    文档版面分析方法、模型训练方法、装置和设备

    公开(公告)号:CN113378580A

    公开(公告)日:2021-09-10

    申请号:CN202110697993.2

    申请日:2021-06-23

    Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。

    票据识别方法、装置、设备以及存储介质

    公开(公告)号:CN112837466A

    公开(公告)日:2021-05-25

    申请号:CN202011501307.1

    申请日:2020-12-18

    Abstract: 本申请公开了一种票据识别方法、装置、设备以及存储介质,涉及计算机视觉、自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括:获取票据图像;将票据图像输入预先训练的票据识别模型的特征提取网络层中,得到票据图像的票据关键字段特征图和票据关键字段值特征图;将票据关键字段特征图输入票据识别模型的第一头部网络层中,得到票据关键字段;利用票据识别模型的第二头部网络层对票据关键字段值特征图进行处理,得到票据关键字段值,其中,特征提取网络层分别与第一头部网络层和第二头部网络层连接;基于票据关键字段和票据关键字段值,生成票据图像的结构化信息。

    结构化文档信息标注的方法、装置及电子设备

    公开(公告)号:CN111695518A

    公开(公告)日:2020-09-22

    申请号:CN202010538181.9

    申请日:2020-06-12

    Abstract: 本申请公开了结构化文档信息标注的方法、装置及电子设备,涉及人工智能领域、深度学习领域以及大数据领域。具体实现方案为:获取结构化文档的模板图像以及所述模板图像的至少一个待填充字段的标注信息,所述标注信息包括所述待填充字段的属性值、历史内容以及所述待填充字段在所述模板图像中的历史位置。根据所述待填充字段的属性值、所述待填充字段的历史内容以及所述待填充字段在模板图像中的历史位置,生成所述待填充字段的目标填充信息。根据所述待填充字段的目标填充信息,得到标注的结构化文档的图像。该方法能够实现结构化文档的快速准确的标注。

    用于识别图像中的字符的方法、装置、设备和介质

    公开(公告)号:CN110135427A

    公开(公告)日:2019-08-16

    申请号:CN201910291030.5

    申请日:2019-04-11

    Abstract: 根据本公开的实施例,提供了用于识别图像中的字符的方法、装置、设备和介质。一种识别图像中的字符的方法包括:提取图像的特征表示;通过对特征表示应用注意力机制来确定针对多个字符识别模型的相应的多个注意力特征表示,多个字符识别模型分别被配置用于识别多个类型的字符;以及利用多个字符识别模型来分别处理多个注意力特征表示,以识别图像中与多个类型相关的字符。以此方式,可以更直接、准确且快速地识别出图像中期望的字符。

    数据筛选方法、装置及电子设备

    公开(公告)号:CN113378921B

    公开(公告)日:2024-11-05

    申请号:CN202110644004.3

    申请日:2021-06-09

    Abstract: 本申请公开了一种数据筛选方法、装置及电子设备,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。具体实现方案为:获取包括多个样本数据及每个样本数据对应的第一预测结果的待标注样本数据集;对每个第一预测结果进行编码,以生成每个第一预测结果的第一编码数据;将每个第一编码数据输入预设的自编码器,以生成每个样本数据对应的第一重建数据与第二重建数据;根据每个第一编码数据分别与第一重建数据及第二重建数据之间的差异,确定每个样本数据对应的第一损失值与第二损失值;根据每个第一损失值与第二损失值,对待标注样本数据集进行筛选。由此,通过这种数据筛选方法,不仅保证了模型的训练效益,而且降低了数据标注成本。

    一种视觉问答方法、装置、设备及存储介质

    公开(公告)号:CN114840656B

    公开(公告)日:2024-03-01

    申请号:CN202210550630.0

    申请日:2022-05-18

    Abstract: 本公开提供了一种视觉问答方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取文本图像和针对所述文本图像的目标问题;确定所述文本图像中的文本内容,以及所述文本内容的位置信息;根据所述文本内容的第一词向量和位置信息,以及所述目标问题的第二词向量,确定所述文本内容的空间语义特征;根据所述空间语义特征,确定所述目标问题的答复内容。通过上述技术方案,可以提升文本视觉问答的准确性。

Patent Agency Ranking