-
公开(公告)号:CN114782965B
公开(公告)日:2025-04-04
申请号:CN202210223134.4
申请日:2022-03-07
Applicant: 华南理工大学
IPC: G06V30/40 , G06V30/418 , G06N3/0985 , G06N3/045 , G06F40/30 , G06V10/764 , G06V30/42
Abstract: 本发明公开了一种基于布局关联性的视觉富文档信息抽取方法、系统及介质,其中方法包括:获取视觉富文档图像,并对视觉富文档图像进行标注,获得数据集;构建针对布局关联性的文档信息抽取模型,采用数据集对文档信息抽取模型进行训练;获取视觉富文档图片,将视觉富文档图片输入训练后的文档信息抽取模型,获得信息抽取结果;其中,布局关联性指的是静态字段和动态字段之间的位置关系,静态字段为同一模板中文字固定的字段,动态字段为同一模板中根据实际内容变化的字段。本发明提供了一种利用文档布局关联性的视觉富文档信息抽取的方案,这种方案可在在小样本数据下即可实现高精度的视觉富文档信息抽取任务,可广泛应用于视觉信息抽取领域。
-
公开(公告)号:CN114581905B
公开(公告)日:2024-08-16
申请号:CN202210375908.5
申请日:2022-04-11
Applicant: 华南理工大学
IPC: G06V20/62 , G06F40/30 , G06N3/044 , G06N3/0464 , G06N3/0455 , G06V30/19
Abstract: 本发明公开一种基于语义增强机制的场景文本识别方法及系统,包括获取场景文本图像,对场景文本图像进行校正,对校正后的场景文本图像进行特征提取,获取视觉特征,基于视觉特征提取全局语义信息,基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。通过上述技术方案,本发明使场景文本图像的识别能够更加准确。
-
公开(公告)号:CN114596569B
公开(公告)日:2024-05-24
申请号:CN202210128901.3
申请日:2022-02-11
Applicant: 华南理工大学
IPC: G06V30/40 , G06N3/0464 , G06N3/044 , G06N3/045 , G06N3/042 , G06N3/096 , G06V10/764 , G06V10/82 , G06V30/19
Abstract: 本发明公开了一种轻量化文字识别模型设计方法、系统、装置及介质,其中方法包括:选取基准模型:采用基于卷积递归神经网络的文本行识别模型作为基准模型;网络结构搜索:采用ProxylessNAS网络结构搜索算法搜索适用于文字识别任务的主干网络,使用LayeNorm层作为特征序列的归一化层;知识蒸馏:采用基于特征的知识蒸馏方法提升轻量化模型性能,基于SVD分解对蒸馏方法中回归器权重进行赋值,对教师模型提取的特征进行降维;蒸馏辅助网络结构搜索:通过在网络搜索过程中加入蒸馏学习辅助搜索过程。本发明通过将知识蒸馏与网络结构搜索模型进行有机结合,解决现有方法计算量与存储量过大问题,使得文字识别模型能够部署到移动端设备上,可广泛应用于人工智能技术领域。
-
公开(公告)号:CN117542063A
公开(公告)日:2024-02-09
申请号:CN202410033225.0
申请日:2024-01-10
Applicant: 华南理工大学
Abstract: 本发明公开了一种多语言多模态多分支文档视觉信息抽取方法,本发明属于模式识别与人工智能领域,包括:获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;对所述文本检测识别结果进行排序,得到已排序检测识别结果;对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练;基于预训练好的多模态特征,分别进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。
-
公开(公告)号:CN117315688A
公开(公告)日:2023-12-29
申请号:CN202311208092.8
申请日:2023-09-18
Applicant: 华南理工大学
IPC: G06V30/26 , G06V30/148 , G06V30/19 , G06V10/82 , G06N3/0455 , G06N3/0442
Abstract: 本发明公开了一种中文OCR纠错后处理方法、系统、装置及存储介质,属于OCR纠错后处理、语言模型、机器翻译技术领域。其中方法包括:收集语料和单字样本,通过语料拼接单字样本来合成脱机的文本行图片;构建并训练文本识别模型;采用训练后的文本识别模型对所述文本行图片进行识别,获得识别结果;将识别获得的OCR识别文本和文本标签作为一个样本,构建训练集;构建基于非自回归序列生成的纠错模型,采用所述训练集对纠错模型进行训练;获取待处理的OCR识别文本,并输入训练后的纠错模型,获得纠错后的文本。本发明具有实现简单、推理速度快、纠错效果好等优点。
-
公开(公告)号:CN116823650A
公开(公告)日:2023-09-29
申请号:CN202310713805.X
申请日:2023-06-15
Applicant: 华南理工大学
IPC: G06T5/00 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种拍照文档图像增强方法、系统、装置及介质,属于模式识别与人工智能技术领域。其中方法包括:获取第一文档图像,以及获取所述第一文档图像对应的阴影图;根据所述第一文档图像和获得的阴影图进行光照矫正处理,得到第二文档图像;将所述第一文档图像和所述第二文档图像在通道维度进行拼接后,输入预设的第二深度卷积神经网络进行增强处理,输出第三文档图像,作为最终的增强结果。本发明能够处理各种光照退化:包括物体遮挡光源导致的阴影、光源不均匀导致的阴影、纸张不平整导致的阴影、光源不充足导致的低对比度。另外,还能处理字迹渗透等细节噪声。
-
公开(公告)号:CN116469176A
公开(公告)日:2023-07-21
申请号:CN202310241090.2
申请日:2023-03-13
Applicant: 华南理工大学
IPC: G06V40/30 , G06V10/774 , G06V10/82 , G06V10/77 , G06N3/0442 , G06N3/0464 , G06N3/0895
Abstract: 本发明公开了一种文本无关联机笔迹身份认证方法、系统、装置及介质,其中方法包括:获取文本无关的笔迹时间序列数据;对笔迹时间序列数据进行压力归一化和坐标中心归一化处理;构建基于深度神经网络的鉴别模型,采用归一化处理后的笔迹时间序列数据对鉴别模型进行训练;获取模板笔迹和待测试笔迹,将模板笔迹和待测试笔迹输入训练后的鉴别模型进行特征提取,获得第一表征向量和第二表征向量;根据第一表征向量和第二表征向量判定待测试笔迹为真实笔迹或者伪造笔迹。本发明在文本无关场景下进行笔迹认证,针对文本无关场景下内容无法使用只有风格可以使用的特点,自适应地增强风格特征的学习,降低错误率,可广泛应用于深度学习与模式识别领域。
-
公开(公告)号:CN116452641A
公开(公告)日:2023-07-18
申请号:CN202310113199.8
申请日:2023-02-13
Applicant: 华南理工大学
IPC: G06T7/30 , G06T3/00 , G06V10/774
Abstract: 本发明公开了一种文档图像配准数据合成方法、系统、装置及介质,其中方法包括:获取不包含几何形变退化、光照退化的第一文档图像;生成随机非刚性形变的偏移场;根据生成的偏移场对第一文档图像进行几何形变,得到第二文档图像;获取阴影图;根据阴影图对第一文档图像和/或第二文档图像进行退化处理,获得退化图像。本发明可以合成针对文档图像配准的数据,包括两张内容相同但相互之间含有非刚性形变的文档图像以及这两张文档图像之间的偏移场,合成的数据还可以模拟真实场景中拍摄文档图像含有的阴影、光照变化等退化;该合成方法可以有效地缓解现有文档图像配准任务中训练数据欠缺的问题。本发明可广泛应用于模式识别与人工智能技术领域。
-
公开(公告)号:CN116434236A
公开(公告)日:2023-07-14
申请号:CN202310286891.0
申请日:2023-03-21
Applicant: 华南理工大学
IPC: G06V30/148 , G06V30/162 , G06V30/18 , G06V30/19 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种双流场景文本图像分割方法、装置及存储介质,其中方法包括:获取场景文本图像以及对应的二值化图像进行分割标注,获得输入图像;构建双流文本分割网络,提取输入图像的全局注意力特征和局部细节特征,并将提取的两种特征融合为文本分割特征;采用文本语义信息来引导双流文本分割网络关注文本所在区域,以增强文本分割特征;将经过增强的文本分割特征动态地上采样,得到输出二值化分割图像;计算输出二值化分割图像和标注的二值化图像之间的损失,根据计算的损失训练整个神经网络。本发明能够解决场景文本在图片中分布不均和尺度、形状变化多样的问题,提高文本图像分割性能,可广泛应用于模式识别与人工智能技术领域。
-
公开(公告)号:CN116311314A
公开(公告)日:2023-06-23
申请号:CN202310113258.1
申请日:2023-02-13
Applicant: 华南理工大学
IPC: G06V30/413 , G06T7/33
Abstract: 本发明公开了一种拍照文档图像数据标注方法、系统、装置及介质,其中方法包括:获取第一文档图像;将第一文档图像打印成纸质文档;对纸质文档进行拍摄,获得第二文档图像;将第一文档图像和第二文档图像进行配准对齐,得到偏移场;根据偏移场和第一文档图像获取第二文档图像的批注信息;和/或,根据偏移场对第二文档图像进行采样,得到与第一文档图像像素级对齐的第三文档图像;和/或,将偏移场和第二文档图像构成文档图像矫正任务标注数据。本发明通过配准对齐的方式,将已有标注的电子生成文档进行映射以及对拍照文档进行偏移采样,可以较低成本地获得多种任务的标注数据。本发明可广泛应用于模式识别与人工智能技术领域。
-
-
-
-
-
-
-
-
-