深度学习网络的训练方法、文本检测方法及装置

    公开(公告)号:CN115358392B

    公开(公告)日:2023-05-05

    申请号:CN202211290027.X

    申请日:2022-10-21

    Abstract: 本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR、大模型等场景。具体实现方案包括:利用待训练的深度学习网络,确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征;根据第一文本框特征、第二文本框特征和预设文本框特征序列,确定对比损失函数值;以及根据对比损失函数值,调整深度学习网络的模型参数,得到经训练的目标深度学习网络。

    基于图像的文本获取方法、装置、电子设备及存储介质

    公开(公告)号:CN114937277B

    公开(公告)日:2023-04-11

    申请号:CN202210543075.9

    申请日:2022-05-18

    Abstract: 本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。

    信息提取方法、装置、电子设备和介质

    公开(公告)号:CN114863439B

    公开(公告)日:2023-02-17

    申请号:CN202210546057.6

    申请日:2022-05-19

    Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉等技术领域,可应用于OCR等场景。实现方案为:对第一文档图像进行编码,以得到多个尺度的目标特征图,并对查询信息进行编码,以得到目标文本特征;对目标特征图和目标文本特征进行融合,以得到目标融合特征;根据目标融合特征,提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此,可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息,以满足用户的实际提取需求,改善用户的使用体验;并且,通过自动提取结构化信息,可以提高待办事件的处理效率,支持企业办公智能化进程。

    生成样本图像的方法以及文字识别模型的训练方法

    公开(公告)号:CN114998897A

    公开(公告)日:2022-09-02

    申请号:CN202210662775.X

    申请日:2022-06-13

    Abstract: 本公开提供了生成样本图像的方法以及文字识别模型的训练方法,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于光学字符识别等场景。具体实现方案为:根据初始图像,生成第一背景图像和第一文字;其中,第一背景图像为初始图像中的所述第一文字被替换为目标图像所得到的。对第一背景图像进行调整,生成与第一背景图像相似的第二背景图像;对第一文字进行调整,生成与第一文字相似的第二文字。根据第二背景图像和第二文字,生成第一样本图像;对第一样本图像进行真实化处理,得到第二样本图像,进而增加最终得到的第二样本图像,提高训练得到的文字识别模型的准确度。

    文本检测模型的训练方法和检测文本方法、装置和设备

    公开(公告)号:CN113657390B

    公开(公告)日:2022-08-12

    申请号:CN202110934294.5

    申请日:2021-08-13

    Abstract: 本公开提供了一种文本检测模型的训练方法和检测文本的方法,涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于图像处理和图像识别等场景下。训练方法包括:将样本图像输入文本检测模型的文本特征提取子模型,得到样本图像中文本的文本特征;该样本图像具有指示实际位置信息和实际类别的标签;将预定文本向量输入文本检测模型的文本编码子模型,得到文本参考特征;将文本特征和文本参考特征输入文本检测模型的解码子模型,得到文本序列向量;将文本序列向量输入文本检测模型的输出子模型,得到预测位置信息和预测类别;以及基于预测类别、实际类别、预测位置信息和实际位置信息,对文本检测模型进行训练。

    信息提取方法、装置、电子设备和介质

    公开(公告)号:CN114863439A

    公开(公告)日:2022-08-05

    申请号:CN202210546057.6

    申请日:2022-05-19

    Abstract: 本公开提供了一种信息提取方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉等技术领域,可应用于OCR等场景。实现方案为:对第一文档图像进行编码,以得到多个尺度的目标特征图,并对查询信息进行编码,以得到目标文本特征;对目标特征图和目标文本特征进行融合,以得到目标融合特征;根据目标融合特征,提取第一文档图像中与查询信息中的设定实体词匹配的结构化信息。由此,可以实现从文档图像中提取与查询信息中用户所需的实体词匹配的结构化信息,以满足用户的实际提取需求,改善用户的使用体验;并且,通过自动提取结构化信息,可以提高待办事件的处理效率,支持企业办公智能化进程。

    基于图像的文字识别方法、装置、设备、介质及产品

    公开(公告)号:CN114648754A

    公开(公告)日:2022-06-21

    申请号:CN202210336292.0

    申请日:2022-03-31

    Abstract: 本公开提供了一种基于图像的文字识别方法、装置、设备、介质及产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可以应用于OCR((Optical Character Recognition,光学字符识别))等场景。具体实现方案为:确定待识别图像的图像特征;基于所述图像特征,同时提取所述待识别图像的嵌入特征和所述待识别图像对应的位置映射结果;利用所述嵌入特征和所述位置映射结果进行特征计算,获得所述待识别图像的文字实例特征;对所述文字实例特征进行文字识别,获得所述待识别图像的目标识别信息。本公开的技术方案提高了图像的文字识别精度。

Patent Agency Ranking