- 专利标题: 一种基于CRNN算法的OCR高考招生指南智能采集方法
-
申请号: CN202310718354.9申请日: 2023-06-16
-
公开(公告)号: CN116935396B公开(公告)日: 2024-02-23
- 发明人: 赵龙霄 , 马红光 , 李想 , 邵杰 , 王新鑫
- 申请人: 北京化工大学 , 安徽萃文科技有限责任公司
- 申请人地址: 北京市朝阳区北三环东路15号
- 专利权人: 北京化工大学,安徽萃文科技有限责任公司
- 当前专利权人: 北京化工大学,安徽萃文科技有限责任公司
- 当前专利权人地址: 北京市朝阳区北三环东路15号
- 代理机构: 北京圣州专利代理事务所
- 代理商 李志强
- 主分类号: G06V30/148
- IPC分类号: G06V30/148 ; G06F16/25 ; G06V30/164 ; G06V30/162 ; G06V30/146 ; G06V10/82 ; G06N3/044 ; G06N3/0464
摘要:
本发明公开了一种基于CRNN算法的OCR高考招生指南智能采集方法,属于计算机视觉技术领域,包括如下步骤:S1:文件获取与预处理,将PDF拆分成图片文件并对文件进行输入前预处理;S2:通过图像预处理模块对S1中输入的图片文件进行识别前预处理;S3:构建基于CRNN算法的OCR模型,对S2输出的经过预处理的图像进行识别并形成文本数据;S4:通过结构化数据生成模块对S3中形成的文本数据进行信息抽取,最终形成与数据库格式相同的结构化数据。本发明采用上述步骤的一种基于CRNN算法的OCR高考招生指南智能采集方法,能够有效的提高高考志愿填报数据的采集效率,同时能够保证大部分数据质量,加快进度的同时能够使后续的工作更加简单。
公开/授权文献
- CN116935396A 一种基于CRNN算法的OCR高考招生指南智能采集方法 公开/授权日:2023-10-24