-
公开(公告)号:CN114494679B
公开(公告)日:2024-12-31
申请号:CN202111504588.0
申请日:2021-12-10
Applicant: 上海精密计量测试研究所
IPC: G06V10/22 , G06F40/279 , G06F40/216
Abstract: 本发明提供了一种双层PDF生成及校对方法和装置,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。装置主要包括OCR识别引擎、存储模块、段落合成模块、错误检测纠正模块和输出模块。
-
公开(公告)号:CN118132668A
公开(公告)日:2024-06-04
申请号:CN202311762167.7
申请日:2023-12-20
Applicant: 上海精密计量测试研究所
IPC: G06F16/31 , G06F16/33 , G06F16/903 , G06F40/242 , G06F40/284 , G06F40/30
Abstract: 本发明公开了一种基于规则的元器件规格型号自定义分词方法,以准确地对元器件规格型号文本进行分词,解决现有分词方法对该领域文本处理存在的问题。该方法通过构建元器件规格语料库并分析文本特征,形成领域自定义词典,设计正则表达式规则进行规格符号识别及关键信息保留,确定合理的分词粒度和顺序,基于开源搜索引擎框架集成所构建的词典、规则和策略,实现一个针对元器件规格文本的自定义分词器。应用该分词器,可以有效地支持元器件信息管理系统中对规格文本的索引、检索和知识分析。该方法构建简单有效,可以显著提升对元器件规格文本处理的效果。
-
公开(公告)号:CN114494679A
公开(公告)日:2022-05-13
申请号:CN202111504588.0
申请日:2021-12-10
Applicant: 上海精密计量测试研究所
IPC: G06V10/22 , G06F40/279 , G06F40/216
Abstract: 本发明提供了一种双层PDF生成及校对方法和装置,针对OCR引擎识别结果进行二次处理,将识别结果整理成逻辑完整的段落,再以段落为单位,针对段落句子从字粒度和词粒度两方面进行错误检测和错误纠错,最后根据纠错结果进一步生成双层PDF文档。装置主要包括OCR识别引擎、存储模块、段落合成模块、错误检测纠正模块和输出模块。
-
公开(公告)号:CN110956168A
公开(公告)日:2020-04-03
申请号:CN201911257432.X
申请日:2019-12-10
Applicant: 上海精密计量测试研究所
Abstract: 本发明的基于图像识别的单机版环境试验设备在线数据采集方法包括:1)进行单机版环境试验设备物联网;2)参数配置;3)图像定时抓取:依据图像采集周期定时抓取各单机版环境试验设备的工控机界面图像并发送至服务器;4)图像预处理:服务器对图像进行多余特征去除;5)图像裁剪:服务器根据定义的工控界面识别模板对去除多余特征的图像进行裁剪,得到最小可识别单元;6)特征图像识别:服务器对最小识别单元进行OCR识别,解析出结构化数据;7)数据存储与展现:将结构化数据存储到指定数据库实例的数据表中进行更新或新增,通过服务器界面展现该数据表。本发明以低成本实现现有单机版环境试验设备数据在线采集。
-
公开(公告)号:CN112632934A
公开(公告)日:2021-04-09
申请号:CN202011530378.4
申请日:2020-12-22
Applicant: 上海精密计量测试研究所
Abstract: 本发明提供了一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法,本发明根据表格图片的长宽像素与word文件的页面版式按比例计算、匹配、还原的方式,将图片中的内容等比还原到Word文件的页面版式中。主要包括页面版式匹配、表格边框大小匹配、表格页面位置匹配与文字大小匹配。结果经过计算的匹配结果作为参数通过java、C#等开发语言利用Word二次开发接口在Word对应版式页面中自动绘制表格。并将OCR识别的结果,按匹配的文字格式放入指定表格单元格内。
-
公开(公告)号:CN112632934B
公开(公告)日:2023-01-17
申请号:CN202011530378.4
申请日:2020-12-22
Applicant: 上海精密计量测试研究所
IPC: G06F40/18 , G06V30/413
Abstract: 本发明提供了一种基于比例计算还原表格图片为可编辑的WORD文件表格的方法,本发明根据表格图片的长宽像素与word文件的页面版式按比例计算、匹配、还原的方式,将图片中的内容等比还原到Word文件的页面版式中。主要包括页面版式匹配、表格边框大小匹配、表格页面位置匹配与文字大小匹配。结果经过计算的匹配结果作为参数通过java、C#等开发语言利用Word二次开发接口在Word对应版式页面中自动绘制表格。并将OCR识别的结果,按匹配的文字格式放入指定表格单元格内。
-
-
-
-
-