模型压缩方法、图像处理方法、装置和电子设备

    公开(公告)号:CN114881227B

    公开(公告)日:2023-07-04

    申请号:CN202210520999.7

    申请日:2022-05-13

    Abstract: 本公开提供了一种模型压缩方法、图像处理方法、装置和电子设备,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为:基于第一训练样本对初始模型进行训练,得到训练后的第一目标模型,第一目标模型包括N个第一网络层和M个第二网络层;对N个第一网络层进行剪枝,得到N个第三网络层;将第i个第三网络层对应的第i个第一网络层作为老师层,基于第一目标模型对应的第二训练样本,对第i个第三网络层进行蒸馏学习,得到第i个第四网络层;根据N个第四网络层和M个第二网络层,生成第二目标模型。由此,可对第一网络层分别进行剪枝,并对第三网络层分别进行蒸馏学习,提升了模型压缩的性能。

    文档矫正模型的训练及图像矫正方法、装置、设备和介质

    公开(公告)号:CN116110054A

    公开(公告)日:2023-05-12

    申请号:CN202310116117.5

    申请日:2023-02-08

    Abstract: 本公开提供了一种文档矫正模型的训练及图像矫正方法、装置、设备和介质,涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:采用文档矫正模型对样本文档图像进行矫正,以得到目标文档图像;对目标文档图像进行文本行检测,得到至少一个文本行的中心线;根据以下至少一项对文档矫正模型进行训练:目标文档图像中同一中心线上各像素点的图像坐标之间的差异、不同中心线上处于同一排列位置的像素点的图像坐标之间的差异。由此,可实现基于文本行中心线上的各像素点,约束模型矫正后的文档图像上的文本行的中心线方向与文档图像的阅读方向匹配,以提升文档图像的矫正效果,提升文档图像矫正还原的准确度。

    图像识别方法、装置、电子设备以及存储介质

    公开(公告)号:CN114359904B

    公开(公告)日:2023-04-07

    申请号:CN202210013240.X

    申请日:2022-01-06

    Abstract: 本公开提供了一种图像识别方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,应用于图像识别场景,以至少解决相关技术中模型识别的准确率较低的技术问题。具体实现方案为:获取目标图像,其中,目标图像包括待识别对象;利用目标模型对目标图像进行对象识别,得到识别结果;其中,目标模型分别使用多组训练数据通过机器学习训练得到,多组训练数据至少包括:第一组训练数据、第二组训练数据、第三组训练数据,第一组训练数据、第二组训练数据、第三组训练数据的损失梯度不同。

    一种光学字符识别处理、文本识别模型训练方法及装置

    公开(公告)号:CN115376137A

    公开(公告)日:2022-11-22

    申请号:CN202210921816.2

    申请日:2022-08-02

    Abstract: 本公开提供了一种光学字符识别处理方法、文本识别模型训练方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等领域,可应用于光学字符识别等场景。具体实现方案为:获取文本样本。其中,文本样本中包括文本图像和文本像素信息。分割文本图像中的前景和背景,得到与文本图像中文本相对应的前景图像。基于前景图像和文本像素信息,进行OCR处理。本公开通过对文本图像进行图像分割以得到文本对应的前景图像,并结合前景图像和文本像素信息进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别,可以有效区分相似的形近字,使得OCR识别的结果更加准确。

    深度学习网络的训练方法、文本检测方法及装置

    公开(公告)号:CN115358392A

    公开(公告)日:2022-11-18

    申请号:CN202211290027.X

    申请日:2022-10-21

    Abstract: 本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于OCR、大模型等场景。具体实现方案包括:利用待训练的深度学习网络,确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征;根据第一文本框特征、第二文本框特征和预设文本框特征序列,确定对比损失函数值;以及根据对比损失函数值,调整深度学习网络的模型参数,得到经训练的目标深度学习网络。

    文档图像的矫正方法、装置、电子设备和存储介质

    公开(公告)号:CN113792730B

    公开(公告)日:2022-09-27

    申请号:CN202110945049.4

    申请日:2021-08-17

    Abstract: 本公开提供了文档图像的矫正方法、装置、电子设备和存储介质,人工智能技术领域,涉及计算机视觉和深度学习技术领域,可应用于图像处理、图像识别等场景,将待矫正文档图像输入形状网络模型,以得到所述待矫正文档图像对应的扭曲三维坐标;将所述扭曲三维坐标输入矫正坐标预测网络模型,以得到扭曲三维坐标对应的矫正三维坐标;根据所述矫正三维坐标及所述待矫正文档图像的角点计算对应的二维前向图;通过对所述二维前向图进行插值计算得到二维向后图,根据所述二维向后图生成矫正后的文档图像。通过从单个待矫正文档图像中消除形变的深度学习,能够降低待矫正文档图像的局部失真率以及OCR字符错误率。

    样本数据集的生成方法、装置及电子设备

    公开(公告)号:CN114529909A

    公开(公告)日:2022-05-24

    申请号:CN202210148525.4

    申请日:2022-02-17

    Abstract: 本公开提供了样本数据集的生成方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别场景。具体实现方案为:获取原始图像,其中,原始图像中至少包括文本区域;对原始图像进行色彩变换处理,得到至少一个第一图像;对至少一个第一图像进行裁剪处理,得到多个第一子图像;对多个第一子图像进行贴合处理,得到多个目标图像;基于多个目标图像生成样本数据集,其中,样本数据集用于对预设模型进行训练,预设模型至少用于识别待识别图像中的文本区域。

    文本识别方法、视觉特征提取模型的训练方法及装置

    公开(公告)号:CN113657395A

    公开(公告)日:2021-11-16

    申请号:CN202110944388.0

    申请日:2021-08-17

    Abstract: 本公开提供了一种文本识别方法、视觉特征提取模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉和深度学习技术领域,可应用于光学字符识别等场景,包括:获取待识别图像中待识别文本分别对应的先验特征和视觉特征,先验特征是基于待识别图像的先验知识确定的,对先验特征和视觉特征进行融合处理,得到融合特征,对融合特征进行编码处理得到编码特征,对编码特征进行解码处理,得到与待识别文本对应的文本内容,使得文本识别过程不再为孤立和片面的过程,而具有全面性和完整性,以通过充分考虑可能影响文本识别的信息(用于确定先验特征的信息、用于确定视觉特征的信息)确定文本内容,以提高文本识别的可靠性、准确性、及精度。

Patent Agency Ranking