图像处理方法、图像处理模型的训练方法和装置

    公开(公告)号:CN116597454A

    公开(公告)日:2023-08-15

    申请号:CN202310597526.1

    申请日:2023-05-24

    Abstract: 本公开提供了一种图像处理方法、图像处理模型的训练方法、装置和设备,涉及人工智能技术领域,具体为计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。图像处理方法包括:对目标图像进行文本识别,得到多个文本区域和其各自的文本内容;提取表征多个文本区域的视觉模态信息的多个第一视觉特征和每一个文本区域所包括的文本内容的文本模态信息的多个第一文本特征;基于多个第一视觉特征将多个第一文本特征融合,以得到多个第一文本融合特征;基于多个第一文本特征将多个第一视觉特征融合,以得到多个第一视觉融合特征;基于注意力机制对多个第一视觉融合特征和多个第一文本融合特征进行强化进而得到图像处理结果。

    图像矫正方法及装置、电子设备和介质

    公开(公告)号:CN116416159A

    公开(公告)日:2023-07-11

    申请号:CN202310389889.6

    申请日:2023-04-12

    Abstract: 本公开提供了一种图像矫正方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于OCR、智慧政务等场景。实现方案为:获取待矫正图像;确定所述待矫正图像的形变图像特征,其中,所述形变图像特征指示所述待矫正图像发生的形变的类型和程度;对所述待矫正图像进行前背景分割,以得到所述待矫正图像的背景信息;根据所述形变图像特征和所述背景信息对所述待矫正图像进行后向预测,以得到所述待矫正图像的后向图;以及基于所述后向图对所述待矫正图像进行矫正。

    深度学习网络的训练方法、文本检测方法及装置

    公开(公告)号:CN115358392B

    公开(公告)日:2023-05-05

    申请号:CN202211290027.X

    申请日:2022-10-21

    Abstract: 本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR、大模型等场景。具体实现方案包括:利用待训练的深度学习网络,确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征;根据第一文本框特征、第二文本框特征和预设文本框特征序列,确定对比损失函数值;以及根据对比损失函数值,调整深度学习网络的模型参数,得到经训练的目标深度学习网络。

    生成样本图像的方法以及文字识别模型的训练方法

    公开(公告)号:CN114998897A

    公开(公告)日:2022-09-02

    申请号:CN202210662775.X

    申请日:2022-06-13

    Abstract: 本公开提供了生成样本图像的方法以及文字识别模型的训练方法,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等技术领域,可应用于光学字符识别等场景。具体实现方案为:根据初始图像,生成第一背景图像和第一文字;其中,第一背景图像为初始图像中的所述第一文字被替换为目标图像所得到的。对第一背景图像进行调整,生成与第一背景图像相似的第二背景图像;对第一文字进行调整,生成与第一文字相似的第二文字。根据第二背景图像和第二文字,生成第一样本图像;对第一样本图像进行真实化处理,得到第二样本图像,进而增加最终得到的第二样本图像,提高训练得到的文字识别模型的准确度。

    一种光学字符识别模型的优化方法、装置、设备及介质

    公开(公告)号:CN114495123A

    公开(公告)日:2022-05-13

    申请号:CN202210041824.8

    申请日:2022-01-14

    Abstract: 本公开提供了一种光学字符识别模型的优化方法、装置、设备及介质,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获取多个线上业务数据的编码向量;采用编码器和两个解码器,对多个线上业务数据的编码向量进行处理,得到每个线上业务数据的两个解码向量;根据每个线上业务数据的编码向量和两个解码向量,确定每个线上业务数据对应的两个损失值;从多个线上业务数据中,获取坐标在预设坐标范围外的线上业务数据,作为困难样本,每个线上业务数据的坐标由该线上业务数据对应的两个损失值构成;利用困难样本,优化光学字符识别模型。

    神经网络模型的压缩方法、设备和存储介质

    公开(公告)号:CN114282670A

    公开(公告)日:2022-04-05

    申请号:CN202210044856.3

    申请日:2022-01-14

    Abstract: 本公开提供了一种神经网络模型的压缩方法、设备和存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于图像处理等场景。具体实现方案为:在对初始神经网络模型进行压缩的过程中,结合初始神经网络模型中各层神经网络的剪枝比例,对各层神经网络分别进行剪枝处理,以得到中间神经网络模型,并基于训练数据对中间神经网络模型进行训练,并对训练后的所述中间神经网络模型进行量化,以及结合训练数据对量化后的中间神经网络模型进行训练,以得到最终的目标神经网络模型。由此,在保证神经网络模型的性能的情况下,节省了计算资源、存储和硬件资源等。

Patent Agency Ranking