数据和样本构建、大模型微调和图表解析方法及装置

    公开(公告)号:CN118799897A

    公开(公告)日:2024-10-18

    申请号:CN202410867440.0

    申请日:2024-06-28

    Abstract: 本公开提供了一种图表解析训练样本的构建、一种图表解析模型的微调以及一种图表解析方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习以及大模型等技术领域。具体实现方案为:根据多个数据领域和多个图表类型,构建得到多项图表数据;生成与各图表数据对应的多张图表图像;根据每张图表图像所使用的图表视觉元素,建立与每张所述图表图像对应的细粒度标签,并根据每张所述图表图像所使用图表数据和细粒度标签,构建与各图表图像对应的图表结构化数据。

    表格结构识别方法、表格结构识别模型的训练方法及装置

    公开(公告)号:CN116259064B

    公开(公告)日:2024-05-17

    申请号:CN202310259267.1

    申请日:2023-03-09

    Abstract: 本公开提供了表格结构识别方法、表格结构识别模型的训练方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习技术领域。该表格结构识别方法具体实现方案为:提取待识别表格图像的图像特征;基于注意力机制,根据预定网格线信息和图像特征,得到网格线特征,网格线特征包括与待识别表格图像的表格结构相对应的多个网格线之间的相对位置关系特征和多个网格线的结构特征;对网格线特征进行检测,得到多个网格线之间的相对位置关系和多个网格线的结构信息;基于相对位置关系和结构信息,得到表格结构。

    文本识别方法、装置、设备和介质

    公开(公告)号:CN113313111B

    公开(公告)日:2024-02-13

    申请号:CN202110594748.9

    申请日:2021-05-28

    Abstract: 本公开提供了一种文本识别方法、装置、设备和介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可应用于OCR场景下。该文本识别方法包括:获取待检测图像;将待检测图像输入训练好的文本检测网络模型,获取文本检测网络模型输出的一个或多个检测框,一个或多个检测框中的每一个检测框包围待检测图像中符合预设规则的目标文本;以及对待检测图像中的位于一个或多个检测框内的目标文本进行识别。

    深度学习模型的训练方法、文本识别方法、装置和设备

    公开(公告)号:CN114998881B

    公开(公告)日:2023-11-07

    申请号:CN202210596310.9

    申请日:2022-05-27

    Abstract: 本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:获取样本图像,其中,样本图像设置有标签,标签指示样本图像中的文本信息以及文本信息的语种信息;将样本图像输入到深度学习模型,得到针对多个解码分支的文本识别结果,其中,多个解码分支与多个语种各自对应;根据标签指示的语种信息,从多个解码分支的文本识别结果中确定目标文本识别结果;以及根据标签指示的文本信息与目标文本识别结果之间的差异,调整深度学习模型的参数。本公开还提供了一种文本识别方法、装置、电子设备和存储介质。

    字符识别处理方法和装置

    公开(公告)号:CN112508003B

    公开(公告)日:2023-10-13

    申请号:CN202011506446.3

    申请日:2020-12-18

    Inventor: 吕鹏原 章成全

    Abstract: 本申请公开了一种字符识别处理方法和装置,涉及深度学习技术领域、图像处理技术领域。具体实现方案为:对样本图片集合中每张图片里的字符标注字符区域;标注与每个字符区域对应的字符类别和字符位置编码;根据标注字符区域的样本图片集合,以及与每个字符区域对应的字符类别和字符位置编码,训练预设的用于字符识别的神经网络模型。由此,实现了对图片中字符顺序的识别,提高了字符识别的精度。

    文本识别方法及装置、设备、介质和产品

    公开(公告)号:CN115171110B

    公开(公告)日:2023-08-22

    申请号:CN202210776958.4

    申请日:2022-06-30

    Abstract: 本公开提供了一种文本识别方法及装置、设备、介质和产品,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案包括:确定图像序列中的第一文本图像的待识别文本行;对待识别文本行进行切分,得到候选文本片区;根据图像序列中与第一文本图像相邻的第二文本图像中的第一有效文本片区,确定候选文本片区中的第二有效文本片区;以及对第二有效文本片区进行识别,得到第一文本图像的文本识别结果。

    公式识别方法、装置、设备及存储介质

    公开(公告)号:CN116386049A

    公开(公告)日:2023-07-04

    申请号:CN202310371525.5

    申请日:2023-04-07

    Abstract: 本公开提供一种公式识别方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及计算机视觉、OCR、深度学习等技术领域,可应用于智慧金融、智慧政务等场景下。具体实现方案包括:对目标图像进行特征提取,得到所述目标图像对应的第一特征图;从所述第一特征图中提取手写公式区域对应的第二特征图和印刷公式区域对应的第三特征图;采用预设的手写公式识别网络对所述第二特征图进行识别,得到手写公式识别结果;采用预设的印刷公式识别网络对所述第三特征图进行识别,得到印刷公式识别结果。本公开可以同时提高手写公式和印刷公式的识别准确率和效率。

    图像处理方法、训练方法、装置、电子设备及存储介质

    公开(公告)号:CN116385789A

    公开(公告)日:2023-07-04

    申请号:CN202310368589.X

    申请日:2023-04-07

    Abstract: 本公开提供了一种图像处理方法、训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域。该图像处理方法的具体实现方案为:提取待处理图像的图像特征;根据待处理图像的图像处理任务,确定特征分布图和处理路径,特征分布图表征与图像处理任务对应的感兴趣区域的分布概率,处理路径表征用于处理待处理图像的处理模式;基于注意力机制,根据图像特征和特征分布图,得到感兴趣区域的图像特征;以及按照处理路径,对感兴趣区域的图像特征进行特征处理,得到与图像处理任务相对应的处理结果。

Patent Agency Ranking