-
公开(公告)号:CN114782965B
公开(公告)日:2025-04-04
申请号:CN202210223134.4
申请日:2022-03-07
Applicant: 华南理工大学
IPC: G06V30/40 , G06V30/418 , G06N3/0985 , G06N3/045 , G06F40/30 , G06V10/764 , G06V30/42
Abstract: 本发明公开了一种基于布局关联性的视觉富文档信息抽取方法、系统及介质,其中方法包括:获取视觉富文档图像,并对视觉富文档图像进行标注,获得数据集;构建针对布局关联性的文档信息抽取模型,采用数据集对文档信息抽取模型进行训练;获取视觉富文档图片,将视觉富文档图片输入训练后的文档信息抽取模型,获得信息抽取结果;其中,布局关联性指的是静态字段和动态字段之间的位置关系,静态字段为同一模板中文字固定的字段,动态字段为同一模板中根据实际内容变化的字段。本发明提供了一种利用文档布局关联性的视觉富文档信息抽取的方案,这种方案可在在小样本数据下即可实现高精度的视觉富文档信息抽取任务,可广泛应用于视觉信息抽取领域。
-
公开(公告)号:CN114782965A
公开(公告)日:2022-07-22
申请号:CN202210223134.4
申请日:2022-03-07
Applicant: 华南理工大学
IPC: G06V30/40 , G06V30/418 , G06N3/08 , G06K9/62 , G06F40/30 , G06V10/764 , G06V30/42
Abstract: 本发明公开了一种基于布局关联性的视觉富文档信息抽取方法、系统及介质,其中方法包括:获取视觉富文档图像,并对视觉富文档图像进行标注,获得数据集;构建针对布局关联性的文档信息抽取模型,采用数据集对文档信息抽取模型进行训练;获取视觉富文档图片,将视觉富文档图片输入训练后的文档信息抽取模型,获得信息抽取结果;其中,布局关联性指的是静态字段和动态字段之间的位置关系,静态字段为同一模板中文字固定的字段,动态字段为同一模板中根据实际内容变化的字段。本发明提供了一种利用文档布局关联性的视觉富文档信息抽取的方案,这种方案可在在小样本数据下即可实现高精度的视觉富文档信息抽取任务,可广泛应用于视觉信息抽取领域。
-
公开(公告)号:CN112801010B
公开(公告)日:2023-02-14
申请号:CN202110168304.9
申请日:2021-02-07
Applicant: 华南理工大学
IPC: G06V30/41 , G06V30/414 , G06V30/262 , G06F40/295 , G06F16/35 , G06F40/30
Abstract: 本发明公开了一种针对实际OCR场景下的视觉富文档信息抽取方法,方法包括以下步骤:收集实际场景下的视觉富文本图像;利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;训练命名实体分类模块;构建基于图卷积GAT的全局文档图结构,引入自注意力机制;训练命名实体边界定位模块;构建多特征聚合结构;训练错误语义纠正模块,采用GRU的解码结构,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,得到规范格式的实体命名信息。本发明有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度,对视觉富文档信息的结构化存储具有重要的意义。
-
公开(公告)号:CN113722490B
公开(公告)日:2023-05-26
申请号:CN202111039394.8
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F18/214 , G06N3/0464
Abstract: 本发明公开了一种基于键值匹配关系的视觉富文档信息抽取方法,包括:采集视觉富文档,对所述视觉富文档进行第一多模态特征提取,获得不同级别的特征文本;基于所述特征文本和词嵌入模型获得实体分类结果。本发明创新性地利用实体关联性来研究视觉富文档信息抽取,有效避开了基于命名实体识别的方法难以处理数字类别歧义性和语义歧义性等问题,对现有的视觉富文档信息抽取方法进行有效地补充。
-
公开(公告)号:CN113722490A
公开(公告)日:2021-11-30
申请号:CN202111039394.8
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04
Abstract: 本发明公开了一种基于键值匹配关系的视觉富文档信息抽取方法,包括:采集视觉富文档,对所述视觉富文档进行第一多模态特征提取,获得不同级别的特征文本;基于所述特征文本和词嵌入模型获得实体分类结果。本发明创新性地利用实体关联性来研究视觉富文档信息抽取,有效避开了基于命名实体识别的方法难以处理数字类别歧义性和语义歧义性等问题,对现有的视觉富文档信息抽取方法进行有效地补充。
-
公开(公告)号:CN113723330B
公开(公告)日:2023-11-07
申请号:CN202111039933.8
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06V30/412 , G06V30/413 , G06V30/19 , G06V10/82 , G06N3/0464 , G06V10/80 , G06T5/30 , G06F40/30 , G06V10/764
Abstract: 本发明公开了一种图表文档信息理解的方法及系统,包括:采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。
-
公开(公告)号:CN113723330A
公开(公告)日:2021-11-30
申请号:CN202111039933.8
申请日:2021-09-06
Applicant: 华南理工大学
Abstract: 本发明公开了一种图表文档信息理解的方法及系统,包括:采集初始图表文档,对所述初始图表文档进行分类,获得第一图表文档;对所述第一图表文档进行文本检测和识别,获得第二图表文档;对所述第二图表文档进行文本属性分类,获得目标图表文档;基于所述目标图表文档实现对图表文档信息的理解。本发明提出的图表文档信息理解的方法及系统,可以有效对图表文档进行分类,文本检测和识别,以及文本属性分类,对于机器自动化提取、分析、理解图表文档内容信息有重大的作用和意义。
-
公开(公告)号:CN112801010A
公开(公告)日:2021-05-14
申请号:CN202110168304.9
申请日:2021-02-07
Applicant: 华南理工大学
IPC: G06K9/00 , G06F40/295 , G06F16/35 , G06F40/30
Abstract: 本发明公开了一种针对实际OCR场景下的视觉富文档信息抽取方法,方法包括以下步骤:收集实际场景下的视觉富文本图像;利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征;训练命名实体分类模块;构建基于图卷积GAT的全局文档图结构,引入自注意力机制;训练命名实体边界定位模块;构建多特征聚合结构;训练错误语义纠正模块,采用GRU的解码结构,根据CRF的最优路径,取出对应维度特征的编码隐状态,通过将命名实体的类别信息,作为先验指导信息,指导每次解码器的输出,得到规范格式的实体命名信息。本发明有效提升了视觉富文档信息抽取方法在实际OCR检测识别应用中的精度,对视觉富文档信息的结构化存储具有重要的意义。
-
-
-
-
-
-
-