发明授权
CN105335346B 一种PDF文档的文本提取方法和装置
失效 - 权利终止
- 专利标题: 一种PDF文档的文本提取方法和装置
-
申请号: CN201510754036.3申请日: 2015-11-09
-
公开(公告)号: CN105335346B公开(公告)日: 2018-12-04
- 发明人: 楼永植
- 申请人: 汉王科技股份有限公司 , 中国新闻出版研究院
- 申请人地址: 北京市海淀区东北旺西路8号5号楼三层
- 专利权人: 汉王科技股份有限公司,中国新闻出版研究院
- 当前专利权人: 汉王科技股份有限公司,中国新闻出版研究院
- 当前专利权人地址: 北京市海淀区东北旺西路8号5号楼三层
- 主分类号: G06F17/25
- IPC分类号: G06F17/25
摘要:
本发明公开了一种PDF文档的文本提取方法和装置,所述方法包括:根据PDF文档中各字符的显示空间获得所述各字符的排版空间;若当前字符的排版空间与前一字符的排版空间间隔的距离大于第一预设阈值时,在所述当前字符的排版空间之前插入空格。本发明避免了采用现有排版软件导出PDF文档后提取的文本中英文字符连接在一起的现象,提高了PDF文档的文本提取的准确性和可靠性。
公开/授权文献
- CN105335346A 一种PDF文档的文本提取方法和装置 公开/授权日:2016-02-17