一种文本识别方法、装置、电子设备、介质及产品

    公开(公告)号:CN113903036A

    公开(公告)日:2022-01-07

    申请号:CN202111329026.7

    申请日:2021-11-10

    Abstract: 本公开提供了一种文本识别方法、装置、电子设备、介质及产品,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于文字识别技术领域。具体实现方案为:获取待识别图片,然后基于待识别图片的长度确定滑窗,并利用滑窗对待识别图片进行裁剪,得到多个子图片,其中滑窗的宽度为待识别图片的宽度,滑窗的长度为指定长度,相邻的子图片之间的重叠区域尺寸为预设尺寸。接着将各子图片分别输入预先训练的识别模型,得到识别模型对每个子图片的输出结果。再根据各子图片对应的输出结果,确定对待识别图片的文本识别结果。从而提高了对图片中文本的识别准确率。

    图像处理模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN113361578A

    公开(公告)日:2021-09-07

    申请号:CN202110602898.X

    申请日:2021-05-31

    Abstract: 本公开提出了图像处理模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉和深度学习等技术领域,可应用于图像识别场景下。具体实现方案:获取多个训练数据,并对目标搜索空间内的网络模型集合进行搜索,以得到候选网络模型,候选网络模型包括:多个计算层,并确定与多个计算层分别对应的多个敏感程度值;根据多个敏感程度值处理候选网络模型,以得到待训练网络模型,以及采用多个训练数据训练待训练网络模型,以得到图像处理模型,能够有效地简化图像处理模型的结构,从而有效地提升图像处理模型的训练效率,有效地辅助提升图像处理效果。

    图像处理方法、相关装置及计算机程序产品

    公开(公告)号:CN113255664A

    公开(公告)日:2021-08-13

    申请号:CN202110576183.1

    申请日:2021-05-26

    Abstract: 本公开提供了图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及计算机视觉和深度学习等人工智能技术领域,可应用于图像识别场景下。该方法的一具体实施方式包括:确定待处理图像在不同分辨率下构成待矫正对象的像素点的三维坐标,得到三维预测坐标后,根据该三维预测坐标确定该待矫正对象的表面扭曲参数,最终根据该三维预测坐标和该表面扭曲参数生成该待矫正对象的平面图像。该实施方式基于不同分辨率的待处理图像进行三维坐标预测,以更精准的确定待矫正对象的表面扭曲参数,实现更为精准的图像扭曲矫正,提升图像识别、矫正结果的质量。

    建立票据类型识别模型与识别票据类型的方法、装置

    公开(公告)号:CN113033534A

    公开(公告)日:2021-06-25

    申请号:CN202110262267.8

    申请日:2021-03-10

    Abstract: 本申请公开了一种建立票据类型识别模型与识别票据类型的方法,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可用于OCR场景下。建立识别模型的方法:获取训练数据;对多个票据图像进行文本检测,确定各票据图像中的文本框以及各文本框的位置信息和文本信息;构建包含多模态特征提取模块的神经网络模型;使用各票据图像、各票据图像中各文本框的位置信息和文本信息、以及标注类型对神经网络模型进行训练,得到识别模型。识别票据类型的方法:获取待识别票据图像;对待识别票据图像进行文本检测确定文本框以及各文本框的位置信息和文本信息:将待识别票据图像、各文本框的位置信息和文本信息作为识别模型的输入,将输出结果作为票据类型。

    图像处理方法、装置、设备和介质

    公开(公告)号:CN112949415A

    公开(公告)日:2021-06-11

    申请号:CN202110156565.9

    申请日:2021-02-04

    Abstract: 本公开公开了一种图像处理方法、装置、设备和介质,涉及人工智能技术领域,具体涉及计算机视觉、深度学习等技术领域。该图像处理方法包括:获取图像中至少一个文本区域的各个文本区域的多模态特征,所述多模态特征包括多个维度的特征;对所述各个文本区域的多模态特征进行全局注意力处理,以得到所述各个文本区域的全局注意力特征;基于所述各个文本区域的全局注意力特征,确定所述各个文本区域的类别,基于所述各个文本区域的文本内容和所述类别构建结构化信息。本公开可以提供更具有普适性的图像中的结构化信息的构建方案。

    用于获取图像信息的方法和装置

    公开(公告)号:CN111523292A

    公开(公告)日:2020-08-11

    申请号:CN202010325580.7

    申请日:2020-04-23

    Abstract: 本申请公开了用于获取图像信息的方法和装置,涉及计算机视觉技术领域。具体实施方式包括:利用深度神经网络,对待处理图像进行检测,得到所述待处理图像中目标的类别和位置,其中,所述待处理图像包括至少一个类别的目标;基于所得到的位置对应的类别,解析所得到的位置的目标,得到可编辑的解析结果;按照各个所述解析结果在所述待处理图像中对应的所得到的位置,进行文档重建,得到可编辑文档。本申请可以基于各个位置对应的类别,准确地解析在各个位置的目标,并且可以基于至少一个目标的类别中各个目标的类别,对图像进行更加全面的解析。

    文字检测方法、装置以及终端

    公开(公告)号:CN110309824A

    公开(公告)日:2019-10-08

    申请号:CN201910593977.1

    申请日:2019-07-02

    Inventor: 章成全

    Abstract: 本发明实例提出一种文字检测方法、装置以及终端,方法包括:获取包含有待检测文字的图像中的至少一条文字区域中心线;根据各文字区域中心线像素所在检测框的顶点偏移量,得到第一中心点;根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量,得到第二中心点;判断第一中心点与所述第二中心点之间的距离是否小于阈值,若是,则将第二中心点合并于所述第一中心点上,得到文字区域实例分割结果;根据文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量,得到文字检测结果。使得检测速度加快,满足实时应用场景,同时还能够解决不规则文字和任意弯曲文字的检测问题。

    表格识别方法、表格识别模型的训练方法、装置及设备

    公开(公告)号:CN116645685B

    公开(公告)日:2024-11-26

    申请号:CN202310369035.1

    申请日:2023-04-07

    Abstract: 本公开提供了一种表格识别方法、表格识别模型的训练方法、装置及设备,涉及人工智能技术领域,具体为计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景。该方法包括:根据预设的总行数和总列数对待识别表格图像的表格尺寸进行扩充,得到扩充后的目标表格图像;所述总行数和所述总列数均为固定值;对所述目标表格图像进行表格识别,得到目标表格图像的表格属性信息;所述表格属性信息包括行的有效性信息、列的有效性信息、表格顶点的坐标和相邻表格顶点之间的连接性;根据所述目标表格图像的表格属性信息进行表格重构,得到所述待识别表格图像中的单元格信息。通过上述技术方案能够提高表格识别的准确性。

    特征融合方法、装置、电子设备及计算机可读存储介质

    公开(公告)号:CN115601620B

    公开(公告)日:2024-11-12

    申请号:CN202211304730.1

    申请日:2022-10-24

    Abstract: 本公开提供了特征融合方法、装置、电子设备及计算机可读存储介质,涉及人工智能技术领域,具体涉及深度学习、图像处理、大模型、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:获取第一输入特征以及第二输入特征,第一输入特征以及第二输入特征均与目标分析对象的相关性满足预设的相关性条件;将第一输入特征以及第二输入特征输入预置的特征融合网络,得到第一交叉注意力特征以及第二交叉注意力特征。基于本方案提供的特征融合网络对第一输入特征以及第二输入特征进行特征融合处理,得到融合有第一输入特征的特性以及第二输入特征的特性的第一交叉注意力特征以及第二交叉注意力特征,能够提升特征融合的效果。

Patent Agency Ranking