图像处理的方法、文本识别方法及装置

    公开(公告)号:CN114550177A

    公开(公告)日:2022-05-27

    申请号:CN202210182337.3

    申请日:2022-02-25

    Inventor: 刘经拓

    Abstract: 本公开提供了一种图像处理的方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域。包括:对获取到的样本图像进行预处理,得到样本图像中字段分别对应的位置信息、图像块、以及文本内容,根据字段分别对应的位置信息、图像块、以及文本内容,对字段的位置信息进行掩码预测,得到预测结果,根据预测结果训练得到文本识别模型,文本识别模型用于对待识别图像进行文本识别,通过融合样本图像的多个维度的内容进行“预训练”,使得“预训练”具有较高的全面性和可靠性,当基于预测结果生成文本识别模型时,使得文本识别模型具有较高的准确性,进而当基于文本识别模型进行文本识别时,提高文本识别的可靠性。

    文本识别模型的训练方法、文本识别方法及装置

    公开(公告)号:CN114399769A

    公开(公告)日:2022-04-26

    申请号:CN202210279539.X

    申请日:2022-03-22

    Abstract: 本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。方案为:对获取到的第一样本图像中的部分图像进行掩码预测,得到与第一样本图像对应的预测完整图像,对获取到的第二样本图像中的部分文本进行掩码预测,得到与部分文本对应的预测文本内容,根据预测完整图像和预测文本内容训练得到预训练模型,并根据预训练模型生成文本识别模型,文本识别模型用于对待识别图像进行文本识别,使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力,从而当基于预训练模型生成的文本识别模型进行文本识别时,提高文本识别的准确性和可靠性。

    光学字符识别方法、装置、电子设备和存储介质

    公开(公告)号:CN113343997B

    公开(公告)日:2022-04-19

    申请号:CN202110547936.6

    申请日:2021-05-19

    Abstract: 本公开提供了光学字符识别方法、装置、电子设备和存储介质,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域。具体实现方案为:根据多帧图像以增量式的方式生成多个第一拼接图像;获取一个待识别的第一拼接图像;根据已识别的第一拼接图像对应的识别结果对待识别的第一拼接图像进行切分,得到第二拼接图像;对第二拼接图像进行光学字符识别,得到第二拼接图像对应的识别结果;以及将已识别的第一拼接图像对应的识别结果和第二拼接图像对应的识别结果合并,得到待识别的第一拼接图像对应的识别结果。无需整图进行识别,有效地将连续帧间的文字组织在一起,增强了识别效果,可应用于图像识别场景下的文字识别。

    模型确定方法、装置、电子设备和存储器

    公开(公告)号:CN113947195A

    公开(公告)日:2022-01-18

    申请号:CN202111212328.6

    申请日:2021-10-18

    Abstract: 本公开提供了一种模型确定方法、装置、电子设备和存储器,涉及计算机技术领域,尤其涉及计算机视觉和深度学习领域,可应用于图像处理、图像识别等场景。具体实现方案为:获取第一图像样本和第一文本样本;对第一图像样本和第一文本样本进行训练,得到第一目标模型,其中,第一目标模型学习到第一文本样本的局部特征;获取第二图像样本和第二文本样本,并基于第二图像样本和第二文本样本对第一目标模型进行训练,得到第二目标模型,第二目标模型学习到第二文本样本的全局特征;将第二目标模型确定为第三目标模型的初始化模型,初始化模型的训练效果低的技术问题。

    文字识别模型的训练方法、文字识别方法及装置

    公开(公告)号:CN113657399A

    公开(公告)日:2021-11-16

    申请号:CN202110951785.0

    申请日:2021-08-18

    Abstract: 本公开提供了一种文字识别模型的训练方法,涉及人工智能领域,尤其涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融等场景。该方法包括:将第一样本图像输入视觉特征提取子模型,得到第一视觉特征和第一预测文字,该第一样本图像包括文字和指示第一实际文字的标签;基于第一预测文字,采用语义特征提取子模型得到第一语义特征;基于第一视觉特征和第一语义特征,采用序列子模型得到第二预测文字;以及基于第一预测文字、第二预测文字和第一实际文字,对文字识别模型进行训练。本公开还提供一种文字识别模型的训练装置、文字识别方法及装置、电子设备及存储介质。

    多模态信息库的检索方法、管理方法、装置、设备和介质

    公开(公告)号:CN113656668A

    公开(公告)日:2021-11-16

    申请号:CN202110955328.9

    申请日:2021-08-19

    Abstract: 本公开提供了一种用于多模态信息库的检索方法、管理方法,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习技术领域,可应用于图像识别和图像搜索等场景下。实现方案为:响应于接收到包括第一模态信息的检索信息,使用第一多模态特征提取模块,从检索信息的第一模态信息中提取检索信息的第一模态特征;基于检索信息的第一模态特征与多条目标信息中的每条目标信息的第一模态特征和第二模态特征中的每一个的相似度,选择多条目标信息中的第一组目标信息;以及基于第一组目标信息,生成检索结果。

    文本识别模型框架的训练方法、装置及系统

    公开(公告)号:CN113591864A

    公开(公告)日:2021-11-02

    申请号:CN202110858410.X

    申请日:2021-07-28

    Abstract: 本公开提供了一种文本识别模型框架的训练方法、装置及系统,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。包括:基于预设的文本检测模型对样本图像进行特征处理,得到与样本图像中文本信息相关的至少两种特征信息,基于预设的特征融合模型对样本图像的至少两种特征信息进行融合处理,得到样本图像的融合特征,将融合特征输入至特征融合模型,基于融合特征模型对文本检测模型和特征融合模型的参数分别进行调整,得到文本识别模型框架,文本识别模型框架中的文本检测模型与特征融合模型之间具有较高的关联性,从而实现了训练过程的完整性和全面性,提高了文本识别模型框架的准确性和可靠性。

    文档版面分析方法、模型训练方法、装置和设备

    公开(公告)号:CN113378580A

    公开(公告)日:2021-09-10

    申请号:CN202110697993.2

    申请日:2021-06-23

    Abstract: 本公开提供了一种文档版面分析方法、模型训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景下。文档版面分析方法包括:获取待处理文档图像所包括的文本内容的文本语义特征、文本图像特征和文本位置特征;对它们进行特征融合,以获得融合特征;以及基于融合特征,确定与待处理文档图像包括的文本内容对应的文本位置信息和/或文本类型信息。利用上述方法,可以利用待处理文档图像的文本语义特征、文本图像特征和文本位置特征,针对待处理文档图像确定文本位置信息和/或文本类型信息,因此能够在复杂版面和复杂背景中提升版面分析的效果。

Patent Agency Ranking