-
公开(公告)号:CN105335346B
公开(公告)日:2018-12-04
申请号:CN201510754036.3
申请日:2015-11-09
申请人: 汉王科技股份有限公司 , 中国新闻出版研究院
发明人: 楼永植
IPC分类号: G06F17/25
摘要: 本发明公开了一种PDF文档的文本提取方法和装置,所述方法包括:根据PDF文档中各字符的显示空间获得所述各字符的排版空间;若当前字符的排版空间与前一字符的排版空间间隔的距离大于第一预设阈值时,在所述当前字符的排版空间之前插入空格。本发明避免了采用现有排版软件导出PDF文档后提取的文本中英文字符连接在一起的现象,提高了PDF文档的文本提取的准确性和可靠性。
-
公开(公告)号:CN105335346A
公开(公告)日:2016-02-17
申请号:CN201510754036.3
申请日:2015-11-09
申请人: 汉王科技股份有限公司 , 中国新闻出版研究院
发明人: 楼永植
IPC分类号: G06F17/25
CPC分类号: G06F17/25
摘要: 本发明公开了一种PDF文档的文本提取方法和装置,所述方法包括:根据PDF文档中各字符的显示空间获得所述各字符的排版空间;若当前字符的排版空间与前一字符的排版空间间隔的距离大于第一预设阈值时,在所述当前字符的排版空间之前插入空格。本发明避免了采用现有排版软件导出PDF文档后提取的文本中英文字符连接在一起的现象,提高了PDF文档的文本提取的准确性和可靠性。
-
公开(公告)号:CN102262619A
公开(公告)日:2011-11-30
申请号:CN201010195292.0
申请日:2010-05-31
申请人: 汉王科技股份有限公司
摘要: 本发明公开了一种文档的文字提取方法和装置,属于数据加工领域。方法包括:步骤1:解析文档,获取文档中字体的对应信息,根据对应信息得到字符映射表;步骤2:根据字体对应信息得到各字符对应的字模图像;步骤3:将字模图像进行裁剪,得到字模图像对应的着墨区域;步骤4:对着墨区域进行字符识别,得到各字符的识别结果;步骤5:根据识别结果对字符映射表进行更新,并根据更新后的字符映射表对文档提取文本信息。本发明改进了数据加工的流程,也减少了数据的加工工作量,使随机编码的打包字体不会成为数据加工的障碍。对于特定的版式文档无需识别页面图像,即可获得正确的文本信息,最大限度减少了人工干预,保留了文档的格式和逻辑信息。
-
公开(公告)号:CN102479215B
公开(公告)日:2013-10-30
申请号:CN201010565820.7
申请日:2010-11-30
申请人: 汉王科技股份有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种文件自动导出的方法及一种电子阅读装置,属于数据加工领域。该方法包括,将文件中获取的字符插入建立的多个页面;按照各页面对应的页面编号的顺序取得所述多个页面中的一个页面,根据所述字符的字符信息,依照第一重组方式将所述页面中的字符重组成多个分行;遍历所述页面内的多个分行,依照第二重组方式将所述分行重组成至少一个段落;依照所述页面编号的顺序重复上述步骤,遍历至所有页面的段落重组结束;并将重组的结果按所述页面编号的顺序合并而导出。本发明将每一个页面依照二次重组的方式,可以有效自动区分行与段落,并且自动导出流式文件,能大量节省加工版式文件所需的时间。
-
公开(公告)号:CN102479215A
公开(公告)日:2012-05-30
申请号:CN201010565820.7
申请日:2010-11-30
申请人: 汉王科技股份有限公司
IPC分类号: G06F17/30
摘要: 本发明公开了一种文件自动导出的方法及一种电子阅读装置,属于数据加工领域。该方法包括,将文件中获取的字符插入建立的多个页面;按照各页面对应的页面编号的顺序取得所述多个页面中的一个页面,根据所述字符的字符信息,依照第一重组方式将所述页面中的字符重组成多个分行;遍历所述页面内的多个分行,依照第二重组方式将所述分行重组成至少一个段落;依照所述页面编号的顺序重复上述步骤,遍历至所有页面的段落重组结束;并将重组的结果按所述页面编号的顺序合并而导出。本发明将每一个页面依照二次重组的方式,可以有效自动区分行与段落,并且自动导出流式文件,能大量节省加工版式文件所需的时间。
-
-
-
-