-
公开(公告)号:CN114494679B
公开(公告)日:2024-12-31
申请号:CN202111504588.0
申请日:2021-12-10
Applicant: 上海精密计量测试研究所
IPC: G06V10/22 , G06F40/279 , G06F40/216
Abstract: 本发明提供了一种双层PDF生成及校对方法和装置,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。装置主要包括OCR识别引擎、存储模块、段落合成模块、错误检测纠正模块和输出模块。
-
公开(公告)号:CN118132668A
公开(公告)日:2024-06-04
申请号:CN202311762167.7
申请日:2023-12-20
Applicant: 上海精密计量测试研究所
IPC: G06F16/31 , G06F16/33 , G06F16/903 , G06F40/242 , G06F40/284 , G06F40/30
Abstract: 本发明公开了一种基于规则的元器件规格型号自定义分词方法,以准确地对元器件规格型号文本进行分词,解决现有分词方法对该领域文本处理存在的问题。该方法通过构建元器件规格语料库并分析文本特征,形成领域自定义词典,设计正则表达式规则进行规格符号识别及关键信息保留,确定合理的分词粒度和顺序,基于开源搜索引擎框架集成所构建的词典、规则和策略,实现一个针对元器件规格文本的自定义分词器。应用该分词器,可以有效地支持元器件信息管理系统中对规格文本的索引、检索和知识分析。该方法构建简单有效,可以显著提升对元器件规格文本处理的效果。
-
公开(公告)号:CN114494679A
公开(公告)日:2022-05-13
申请号:CN202111504588.0
申请日:2021-12-10
Applicant: 上海精密计量测试研究所
IPC: G06V10/22 , G06F40/279 , G06F40/216
Abstract: 本发明提供了一种双层PDF生成及校对方法和装置,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。装置主要包括OCR识别引擎、存储模块、段落合成模块、错误检测纠正模块和输出模块。
-
-