基于检测模型的表格检测方法、装置、设备及存储介质

    公开(公告)号:CN113705430B

    公开(公告)日:2024-07-12

    申请号:CN202110989638.2

    申请日:2021-08-26

    摘要: 本申请涉及人工智能,尤其涉及目标检测,提供一种基于检测模型的表格检测方法、装置、计算机设备及存储介质,所述方法包括:获取文档图像;基于表格检测模型的特征图提取子网络,对文档图像提取文档特征图;基于表格检测模型的预测子网络,确定文档特征图的预测信息,预测信息至少包括文档特征图上表格关键点的第一位置以及第一位置在文档图像上的投影位置的位置偏移量;基于预设的位置确定规则,根据预测信息,在文档图像上确定表格关键点的第二位置;根据多个表格关键点的第二位置,确定文档图像中的表格区域。本申请还涉及区块链技术,得到的表格区域可以存储于区块链中。还涉及医疗领域,文档图像可以为病历、检查单等文档的图像。

    文本识别模型的训练方法、装置、设备以及存储介质

    公开(公告)号:CN113792683B

    公开(公告)日:2024-05-10

    申请号:CN202111094858.5

    申请日:2021-09-17

    摘要: 本发明涉及人工智能领域,提供了一种文本识别模型的训练方法、装置、设备以及存储介质,其中,方法包括:通过获取多个第一票据图片以及所述第一票据图片对应的文本内容,并输入图像文本模型中进行训练,得到初步模型,将多个第二票据图片输入至所述初步模型中,提取各个识别文字的各个目标特征,并将所述目标特征设置为各个识别特征所对应的类别中心,对每个文字识别到的识别特征进行center loss训练,使得到的文本识别模型对于每个文字的识别特征更接近于对应文字的特征,使文本识别模型的全连接层对于识别到的文字具有更高的辨识度,从而提高了对文字的识别能力,减小了对文字的识别不准确的概率,提高了对模糊图片的识别度。

    一种表格图片的表格重构方法、装置及相关设备

    公开(公告)号:CN113408256B

    公开(公告)日:2023-12-19

    申请号:CN202110742082.7

    申请日:2021-06-30

    摘要: 本发明公开了一种表格图片的表格重构方法,应用于数据处理领域,用于提高表格图片的表格重构的准确率。本发明提供的方法包括:获取表格图片,并对表格图片中的字符位置识别,得到识别结果;根据识别结果,生成文本框并确定文本框的中心点;根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到三角形网络;基于预设的边缘外边框提取方式,对三角形网络中的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到边缘外边框;基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到主方向;基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。

    基于人工智能的图像标记去除模型的搭建方法及相关设备

    公开(公告)号:CN116542842A

    公开(公告)日:2023-08-04

    申请号:CN202310358121.2

    申请日:2023-03-24

    摘要: 本申请提出一种基于人工智能的图像标记去除模型的搭建方法、装置、电子设备及存储介质,所述方法包括:对于同一文档采集带有标记的标记文档图像、不带标记的文档图像以及标记的标记掩码图作为一组训练样本,基于多个不同文档采集多组训练样本以获取训练数据;搭建图像标记去除初始化模型,图像标记去除初始化模型包括第一生成模型、第二生成模型、第一判别模型和第二判别模型;基于训练数据和预设损失函数训练图像标记去除初始化模型得到图像标记去除模型。本申请能够将待处理文档图像输入图像标记去除模型中的第一生成模型和第二生成模型以去除待处理文档图像中的标记,同时保留图像细节。

    英文文本序列标注方法、系统及计算机设备

    公开(公告)号:CN110750965B

    公开(公告)日:2023-06-30

    申请号:CN201910871720.8

    申请日:2019-09-16

    摘要: 本发明实施例提供了一种基于神经网络的英文文本序列标注方法,所述方法包括:提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI‑LSTM层和第一dropout层以得到第一输出矩阵通过选择性信息对应的第四矩阵得到第二输出矩阵通过语义信息对应第五矩阵Sm×d得到第三输出矩阵通过二元信息对应的第六矩阵Bm×d第四输出矩阵将和进行线性相加,得到线性相加结果将线性相加结果O输入第二LSTM层得到第五输出矩阵将作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym)。本发明实施例可以有效提升标注准确率。

    图像篡改区域检测方法、装置、电子设备及存储介质

    公开(公告)号:CN116109597A

    公开(公告)日:2023-05-12

    申请号:CN202310125121.8

    申请日:2023-02-10

    摘要: 本申请涉及人工智能技术领域,提供一种图像篡改区域检测方法、装置、电子设备及存储介质。该方法包括:提取待检测图像的空域特征信息和频域特征信息,将空域特征信息以及频域特征信息输入第一图像篡改检测网络,得到第一候选篡改区域;提取待检测图像的边缘特征信息,计算待检测图像中每一像素属于篡改区域的概率值,将待检测图像中概率值大于对应的概率阈值的区域确定为第二候选篡改区域;将空域特征信息、频域特征信息与边缘特征信息输入第二图像篡改检测网络,得到第三候选篡改区域;根据第一候选篡改区域、第二候选篡改区域以及第三候选篡改区域中的至少两项,确定待检测图像的篡改区域。本申请提高了图像篡改区域检测精度,避免图像的误检。

    序列标注方法、装置、计算机设备和存储介质

    公开(公告)号:CN110688853B

    公开(公告)日:2022-09-30

    申请号:CN201910740751.X

    申请日:2019-08-12

    IPC分类号: G06F40/295 G06F40/258

    摘要: 本申请涉及一种基于神经网络的序列标注方法、装置、计算机设备和存储介质。所述方法包括:将待标注序列中的各字符进行向量转换得到对应的特征词向量;将特征词向量输入预设的序列标注神经网络,以对待标注序列分词,得到候选词语以及候选词语对应的词语标签;将词语标签分别与候选词语中各字符的位置进行组合,得到字符在候选词语中的所属字符标签。基于候选词语中各字符的所属字符标签的权重向量,测算候选词语的第一配对指标。基于每组候选词语对应的第一配对指标,测算候选标注序列的第二配对指标。将数值最大的第二配对指标对应的候选标注序列识别为第一标注序列。采用本方法能够提高标注的准确性。

    一种表格图片的表格重构方法、装置及相关设备

    公开(公告)号:CN113408256A

    公开(公告)日:2021-09-17

    申请号:CN202110742082.7

    申请日:2021-06-30

    IPC分类号: G06F40/18 G06K9/00

    摘要: 本发明公开了一种表格图片的表格重构方法,应用于数据处理领域,用于提高表格图片的表格重构的准确率。本发明提供的方法包括:获取表格图片,并对表格图片中的字符位置识别,得到识别结果;根据识别结果,生成文本框并确定文本框的中心点;根据预设的三角形网络提取方式,对所有文本框的中心点进行连接操作,得到三角形网络;基于预设的边缘外边框提取方式,对三角形网络中的每个三角形的边进行频次统计,得到统计结果,并根据统计结果得到边缘外边框;基于预设的主方向提取方式,对边缘外边框进行主方向提取,得到主方向;基于主方向对表格图片进行拓扑分析与电子化,得到重构表格。

    基于方向检测的文字识别方法、装置、设备及介质

    公开(公告)号:CN112329777A

    公开(公告)日:2021-02-05

    申请号:CN202110010315.4

    申请日:2021-01-06

    摘要: 本发明涉及人工智能领域,提供一种基于方向检测的文字识别方法、装置、设备及介质,能够拼接样本,以增强样本特征,横向拼接也充分满足网络特性,进而提升了网络训练的效果,根据检测到的文本方向对文字切片进行方向校正,再有针对性的进行文字识别,使识别的准确率更高,解决了在各方向文字混排在一张图片时的漏识别问题,保证在复杂排版的图片上提取到的信息更具完整性。本发明还涉及区块链技术,涉及到的模型可存储于区块链。

    问答语料库的问题分类方法及装置

    公开(公告)号:CN107784048B

    公开(公告)日:2020-05-15

    申请号:CN201611036159.4

    申请日:2016-11-14

    IPC分类号: G06F16/332 G06F16/35

    摘要: 本发明公开了一种问答语料库的问题分类方法及装置。该问答语料库的问题分类方法,包括:采用预设问题分类体系对问答语料库中的每一问题进行问题类型标注,形成已标注问题;对已标注问题进行问题类型和问题内容抽取,获取原始数据;采用特征提取工具对原始数据进行特征提取,以获取命名实体识别、词性标注和句子组块对应的三组原始分类特征;对三组原始分类特征进行线性组合,形成特征数据集;采用线性核的支持向量机对特征数据集进行分类,输出分类结果。该问答语料库的问题分类方法中,仅需对问题进行问题类型标注,无需耗费大量的人力成本进行焦点词标注,即可实现对问答语料库中的问题进行分类,分类效率高且成本低。