- 专利标题: 一种基于神经网络的复杂PDF结构解析方法及装置
-
申请号: CN201911124192.6申请日: 2019-11-18
-
公开(公告)号: CN110598191B公开(公告)日: 2020-04-07
- 发明人: 宋永生 , 汤铭 , 王楠
- 申请人: 江苏联著实业股份有限公司
- 申请人地址: 江苏省南京市中山南路501号通服大厦1502室
- 专利权人: 江苏联著实业股份有限公司
- 当前专利权人: 文灵科技(北京)有限公司
- 当前专利权人地址: 江苏省南京市中山南路501号通服大厦1502室
- 代理机构: 连云港联创专利代理事务所
- 代理商 刘刚
- 主分类号: G06F40/126
- IPC分类号: G06F40/126 ; G06F40/205 ; G06F40/258 ; G06F40/30 ; G06N3/04 ; G06N3/08
摘要:
本说明书实施例提供了一种基于神经网络的复杂PDF结构解析方法及装置,通过获得PDF文档的特征信息;根据最大熵模型对所述PDF文档的特征信息进行粗颗粒划分,获得所述PDF文档的分层段落;根据大规模语料集中训练的两层双向语言模型转化所述PDF文档的分层段落获得段落词向量,压缩所述段落词向量获得段落语义向量;将所述段落语义向量输入多层双向长短时记忆网络,获得所述PDF文档的所有段落的层级序列。解决了由于PDF文档结构不单一,存在泛化能力较差的技术问题,达到了避免人工设计规则逻辑的局限性,能够高水平的解析复杂PDF文档结构,泛化性强的技术效果。
公开/授权文献
- CN110598191A 一种基于神经网络的复杂PDF结构解析方法及装置 公开/授权日:2019-12-20