发明授权
- 专利标题: 检测文档阅读顺序的方法和装置
-
申请号: CN201710134711.1申请日: 2017-03-08
-
公开(公告)号: CN108334805B公开(公告)日: 2020-04-03
- 发明人: 朱传聪
- 申请人: 腾讯科技(深圳)有限公司
- 申请人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 代理机构: 广州华进联合专利商标代理有限公司
- 代理商 何平; 邓云鹏
- 主分类号: G06K9/00
- IPC分类号: G06K9/00 ; G06K9/20
摘要:
本发明涉及检测文档阅读顺序的方法和装置。所述方法包括:识别文档图片中包含的文本块,构建一个块集合;从所述块集合中确定出一起始文本块;根据该起始文本块的特征信息对该起始文本块执行寻径操作,以确定出所述块集合中与该起始文本块对应的第一文本块;文本块的特征信息包括该文本块在文档图片中的位置信息以及该文本块的版面布局信息;依此类推直到所述块集合中每一个文本块对应的寻径操作的执行顺序能够唯一确定;确定所述块集合中文本块对应的寻径操作的执行顺序,根据所述执行顺序得到所述文档图片中文本块的阅读顺序。本发明能够准确识别各类文档图片的文档阅读顺序。
公开/授权文献
- CN108334805A 检测文档阅读顺序的方法和装置 公开/授权日:2018-07-27