表格结构化处理方法、设备、存储介质及装置

    公开(公告)号:CN115577688B

    公开(公告)日:2023-04-28

    申请号:CN202211576176.2

    申请日:2022-12-09

    摘要: 本发明公开了一种表格结构化处理方法、设备、存储介质及装置,该方法包括:对表格信息进行预处理,获得待重组表格;根据预设语言处理模型提取待重组表格的信息,并对信息进行分类;根据预设结构化处理方式对分类后的信息进行重组,获得具有结构化特征的表格。本发明根据预设语言处理模型对待重组表格进行分类并根据预设结构化处理方式对分类后的信息进重组,获得具有结构化特征的表格,从而不需要通过人工对表格进行分析并获取其中的信息,进而减少了成本的消耗。

    文本匹配方法、装置、设备及存储介质

    公开(公告)号:CN115600580B

    公开(公告)日:2023-04-07

    申请号:CN202211504116.X

    申请日:2022-11-29

    摘要: 本发明公开了一种文本匹配方法、装置、设备及存储介质,该方法包括:确定待预测文本中文本词组与目标数值之间的距离序列;基于预设词表将待预测文本转换为标号序列;根据预设语言编码模型对距离序列和标号序列进行编码,获得文本编码信息;根据预设语言编码模型对所述文本编码信息进行预测,并根据预测结果获得与所述目标数值匹配的目标文本。本发明通过待预测文本获得距离序列和标号序列,根据预设语言编码模型对距离序列和标号序列进行处理,获得与目标数值匹配的目标文本,从而解决了无法在复杂和冗余的非结构化文本中获取与数值向对应的文本信息。

    短文本采样方法、装置、设备及存储介质

    公开(公告)号:CN118246450A

    公开(公告)日:2024-06-25

    申请号:CN202410280705.7

    申请日:2024-03-12

    摘要: 本发明涉及文本采样技术领域,并公开了一种短文本采样方法、装置、设备及存储介质,该方法包括:对目标短文本集合进行预处理,得到token‑id序列和attention‑mask序列;基于token‑id序列、attention‑mask序列和BERT模型对目标短文本集合进行句向量编码,得到句向量集合;从句向量集合中获取符合采样偏好的初始采样集合及最大行列式值;基于初始采样集合及最大行列式值,使用快速贪心算法对目标短文本集合进行文本采样。本发明引入BERT模型和快速贪心算法对短文本进行句向量编码和行列式点过程运算来进行短文本采样,从而实现节约人力的技术目的,进而能够快速准确且有效地实现短文本采样。

    图像标记去除方法、装置、设备及存储介质

    公开(公告)号:CN117495711B

    公开(公告)日:2024-03-29

    申请号:CN202311843053.5

    申请日:2023-12-29

    摘要: 本发明涉及图像处理技术领域,公开了一种图像标记去除方法、装置、设备及存储介质,该方法包括:将待去除标记图像输入至预设图像标记去除模型,预设图像标记去除模型中设置有粗预测模块和去噪器;通过粗预测模块对待去除标记图像进行粗预测,获得粗糙去标记图像;基于粗糙去标记图像和去噪器生成目标模拟残差图;基于粗糙去标记图像和目标模拟残差图通过通道叠加生成目标无标记图像。本发明通过预设图像标记去除模型中的粗预测模块对待去除标记图像进行粗预测,获得粗预测去标记图像,并基于粗糙去标记图像和目标模拟残差图通过通道叠加生成目标无标记图像,解决了借助软件工具对文档进行去水印和印章的处理过程繁琐且效率低的问题。

    一种针对自然场景的文本检测与识别方法及系统

    公开(公告)号:CN111340034A

    公开(公告)日:2020-06-26

    申请号:CN202010209803.3

    申请日:2020-03-23

    摘要: 本发明是一种针对自然场景的文本检测与识别方法及系统,具体是针对复杂背景、大角度、中英文混合、生僻字等问题,提出了一种针对自然场景的文本检测系统及方法、一种针对自然场景的文本识别系统及方法,解决了真实应用场景下文本检测与识别的诸多问题。本发明使用多尺度特征网络解决文本检测中的多尺度和复杂背景问题,使用平衡注意力机制解决文本识别中的生僻字问题。通过以上方式,本发明提出的技术使得文本检测与识别模型能够应用于真实场景,极大提高了实用性。

    一种针对PDF文档表格提取优化方法及系统

    公开(公告)号:CN111340000A

    公开(公告)日:2020-06-26

    申请号:CN202010209797.1

    申请日:2020-03-23

    IPC分类号: G06K9/00 G06N3/04

    摘要: 本发明公开一种针对PDF文档表格提取优化方法及系统,该系统包括:表格检测模块、表格角检测模块、表格角优化模块和表格边界优化。表格检测模块识别和定位表格;表格角检测模块识别和定位表格角;表格角优化模块用于表格角分组和过滤劣质表格角;表格边界优化模块用于融合表格检测和表格角优化结果对表格定位结果进行优化。该方法包括步骤S1、表格检测;步骤S2、表格角点检测;步骤S3、表格角优化包括对表格角点分组和表格角点过滤;步骤S4、表格边界优化。本发明实现了对于PDF文档中表格数据的高质量自动化提取,为自动化信息提取提供了数据支持,从而节约人力物力、提高工作效率。

    图像还原方法、装置、设备及存储介质

    公开(公告)号:CN117557447B

    公开(公告)日:2024-04-26

    申请号:CN202410040268.1

    申请日:2024-01-11

    IPC分类号: G06T3/04 G06F3/14

    摘要: 本发明涉及图像处理数据技术领域,公开了一种图像还原方法、装置、设备及存储介质,该方法包括:对初始形变图进行前后景分离,获得目标形变图;将目标形变图输入预设注意力网络模型,获得二维映射图;根据二维映射图和目标形变图,获得还原图。不同于现有的需要借助硬件或多张不同角度的图片进行还原的扭曲图像还原方法,本发明不需要借助硬件,可节省硬件成本;只需要一张图即可对各种复杂形变进行还原,能有效矫正图片的形变,适用范围广。同时,本发明可基于二维映射图对目标形变图进行图像还原,在保证还原精度的同时提高还原速度。

    表单信息抽取方法、装置、设备及存储介质

    公开(公告)号:CN117494688B

    公开(公告)日:2024-03-29

    申请号:CN202311843056.9

    申请日:2023-12-29

    摘要: 本发明涉及文件数据提取技术领域,尤其涉及一种表单信息抽取方法、装置、设备及存储介质。该方法通过对待处理表单进行识别,得到待处理数据集,其中,待处理数据集中包括多个实体;同步对多个实体进行实体识别与关系判断,得到识别判断结果;根据识别判断结果,对待处理表单进行实体信息抽取,得到目标实体信息。本发明通过识别待处理表单,识别出多个实体,然后同步对实体进行实体识别与关系判断,考虑到了多个实体间的相互关系以及上下文联系,最后根据实体识别与关系判断的结果对该待处理表单进行实体信息抽取以得到目标实体信息,提高了表单信息抽取的效果与效率。

    图像标记去除方法、装置、设备及存储介质

    公开(公告)号:CN117495711A

    公开(公告)日:2024-02-02

    申请号:CN202311843053.5

    申请日:2023-12-29

    摘要: 本发明涉及图像处理技术领域,公开了一种图像标记去除方法、装置、设备及存储介质,该方法包括:将待去除标记图像输入至预设图像标记去除模型,预设图像标记去除模型中设置有粗预测模块和去噪器;通过粗预测模块对待去除标记图像进行粗预测,获得粗糙去标记图像;基于粗糙去标记图像和去噪器生成目标模拟残差图;基于粗糙去标记图像和目标模拟残差图通过通道叠加生成目标无标记图像。本发明通过预设图像标记去除模型中的粗预测模块对待去除标记图像进行粗预测,获得粗预测去标记图像,并基于粗糙去标记图像和目标模拟残差图通过通道叠加生成目标无标记图像,解决了借助软件工具对文档进行去水印和印章的处理过程繁琐且效率低的问题。