一种基于神经网络的复杂PDF结构解析方法及装置
摘要:
本说明书实施例提供了一种基于神经网络的复杂PDF结构解析方法及装置,通过获得PDF文档的特征信息;根据最大熵模型对所述PDF文档的特征信息进行粗颗粒划分,获得所述PDF文档的分层段落;根据大规模语料集中训练的两层双向语言模型转化所述PDF文档的分层段落获得段落词向量,压缩所述段落词向量获得段落语义向量;将所述段落语义向量输入多层双向长短时记忆网络,获得所述PDF文档的所有段落的层级序列。解决了由于PDF文档结构不单一,存在泛化能力较差的技术问题,达到了避免人工设计规则逻辑的局限性,能够高水平的解析复杂PDF文档结构,泛化性强的技术效果。
0/0