文本检测方法、装置和电子设备

    公开(公告)号:CN113033346A

    公开(公告)日:2021-06-25

    申请号:CN202110261196.X

    申请日:2021-03-10

    Abstract: 本公开公开了文本检测方法、装置和电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。具体实现方案为:根据待检测图片和训练好的文本检测模型生成多个预测文本框的角点坐标;采用非极大值抑制算法对所述多个预测文本框的角点坐标进行处理,得到过滤文本框的角点坐标;根据所述多个预测文本框的角点坐标和所述过滤文本框的角点坐标,从所述过滤文本框和所述多个预测文本框中筛选出多个候选文本框;根据所述多个候选文本框生成目标文本框。由此,能够提高网络感受野,进而增强文本检测效果,尤其增强长文本检测效果,适用于光学字符识别等文本检测应用场景。

    一种票据信息的提取方法、装置、电子设备及存储介质

    公开(公告)号:CN112784829A

    公开(公告)日:2021-05-11

    申请号:CN202110084184.4

    申请日:2021-01-21

    Abstract: 本公开公开了一种票据信息的提取方法、装置、电子设备及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术。具体实现方案为:将待识别票据输入至预先训练好的深度学习网络中,通过深度学习网络得到待识别票据对应的视觉图;将待识别票据对应的视觉图与预先构建的基础模板库中的各个票据模板对应的视觉图进行匹配;若待识别票据对应的视觉图与基础模板库中的任意一个票据模板对应的视觉图匹配成功,则使用任意一个票据模板提取待识别票据中的结构化信息。本申请实施例可以实现多版式的票据信息提取,扩大票据识别所覆盖的业务范围,从而可以适用于大规模票据自动处理,处理效果更好,识别速度更快。

    数据筛选方法、装置及电子设备

    公开(公告)号:CN113378921B

    公开(公告)日:2024-11-05

    申请号:CN202110644004.3

    申请日:2021-06-09

    Abstract: 本申请公开了一种数据筛选方法、装置及电子设备,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域。具体实现方案为:获取包括多个样本数据及每个样本数据对应的第一预测结果的待标注样本数据集;对每个第一预测结果进行编码,以生成每个第一预测结果的第一编码数据;将每个第一编码数据输入预设的自编码器,以生成每个样本数据对应的第一重建数据与第二重建数据;根据每个第一编码数据分别与第一重建数据及第二重建数据之间的差异,确定每个样本数据对应的第一损失值与第二损失值;根据每个第一损失值与第二损失值,对待标注样本数据集进行筛选。由此,通过这种数据筛选方法,不仅保证了模型的训练效益,而且降低了数据标注成本。

    文字识别方法、装置、电子设备以及存储介质

    公开(公告)号:CN113780098B

    公开(公告)日:2024-02-06

    申请号:CN202110945259.3

    申请日:2021-08-17

    Abstract: 本公开提供了文字识别方法、装置、电子设备以及存储介质,涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景。具体实现方案为:采用骨干网络对待识别的目标图像进行特征提取,得到特征图;将特征图输入第一网络,以预测特征图中的各特征点是否属于文本框,以及所属的文本框在目标图像中的位置;将特征图输入第二网络,以预测特征图中各特征点所属文本框之间的关联关系;根据各文本框的位置,对目标图像中对应图像内容进行文字识别,得到各文本框对应的文字内容;根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息。由此,提高了文字识别的准确性。

    文本检测模型的训练方法及装置、文本检测方法及装置

    公开(公告)号:CN113326766B

    公开(公告)日:2023-09-29

    申请号:CN202110587997.5

    申请日:2021-05-27

    Abstract: 本公开提供了一种文本检测模型的训练方法,涉及人工智能领域,尤其涉及计算机视觉和深度学习领域。具体为:获取带有文本标注框的样本图像,其中,上述文本标注框用于标注上述样本图像中包含的文本主体上的目标文本;将上述样本图像输入初始文本检测模型,以执行以下操作:进行主体检测,得到上述文本主体的位置信息;进行特征提取,得到第一样本特征图;基于上述位置信息和上述第一样本特征图,进行特征融合,得到第二样本特征图以及上述文本标注框内各像素点的角度信息;以及基于上述第二样本特征图和上述角度信息以及预先设定的损失函数训练上述初始文本检测模型。本公开还提供了一种文本检测方法及其装置、一种文本检测模型的训练装置。

    生成样本图像的方法以及文字识别模型的训练方法

    公开(公告)号:CN114998897B

    公开(公告)日:2023-08-29

    申请号:CN202210662775.X

    申请日:2022-06-13

    Abstract: 本公开提供了生成样本图像的方法以及文字识别模型的训练方法,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于光学字符识别等场景。具体实现方案为:根据初始图像,生成第一背景图像和第一文字;其中,第一背景图像为初始图像中的所述第一文字被替换为目标图像所得到的。对第一背景图像进行调整,生成与第一背景图像相似的第二背景图像;对第一文字进行调整,生成与第一文字相似的第二文字。根据第二背景图像和第二文字,生成第一样本图像;对第一样本图像进行真实化处理,得到第二样本图像,进而增加最终得到的第二样本图像,提高训练得到的文字识别模型的准确度。

    图像问答方法、装置、设备以及存储介质

    公开(公告)号:CN111767379B

    公开(公告)日:2023-06-27

    申请号:CN202010603698.1

    申请日:2020-06-29

    Abstract: 本申请公开了图像问答方法、装置、设备以及存储介质,涉及图像处理、计算机视觉、深度学习以及自然语言处理技术领域。具体实现方案为:根据查询语句,构建具有拓扑结构的问题图以及提取查询语句的问题特征;根据与查询语句对应的目标图像,构建具有拓扑结构的视觉图和文本图;利用融合模型将视觉图、文本图和问题图进行融合,得到最终融合图;根据最终融合图提取的推理特征以及问题特征,确定查询语句的答复信息。本申请实施例由于将基于目标图像和查询语句所构建视觉图、文本图和问题图进行跨模态的融合,因此可以获取到目标图像在不同模态下的关注点,从而能够在此基础上根据查询语句的意图更加准确的识别出图像问答的答案。

    模型的半监督训练、分类方法装置、设备、介质及产品

    公开(公告)号:CN115471717B

    公开(公告)日:2023-06-20

    申请号:CN202211142519.4

    申请日:2022-09-20

    Abstract: 本公开提供了模型的半监督训练、分类方法装置、设备、介质及产品,涉及人工智能领域,尤其涉及计算机视觉、深度学习领域。具体实现方案为:采用有标签图像样本对待训练的图像分类模型进行训练,获得第一分类模型,所述第一分类模型为第一次训练后的分类模型;确定两个无标签图像样本为一组,获得目标图像样本组;以所述目标图像样本组中两个无标签图像样本互为标签对所述第一分类模型进行训练,获得第二分类模型,所述第二分类模型为第二次训练后的分类模型。

    一种模型训练、字符识别方法、装置、设备及存储介质

    公开(公告)号:CN113971806B

    公开(公告)日:2023-05-05

    申请号:CN202111248583.6

    申请日:2021-10-26

    Abstract: 本公开提供了一种模型训练、字符识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于OCR光学字符识别等场景下。具体实现方案为:获得场景图像、所述场景图像中的第二实际字符和第二构建图像;采用所述待训练模型对所述场景图像进行字符识别,得到字符识别过程中提取的字符的第一特征和第一识别字符;采用所述辅助训练模型对所述第二构建图像进行字符识别,得到字符识别过程中提取的字符的第二特征;基于所述第一识别字符、第二实际字符、第一特征和第二特征,对所述待训练模型的模型参数进行调整,得到字符识别模型。应用本公开实施例提供的方案能够训练得到用于进行字符识别的模型。

Patent Agency Ranking