用于生成图文结构化信息的方法和装置

    公开(公告)号:CN111046096A

    公开(公告)日:2020-04-21

    申请号:CN201911296540.8

    申请日:2019-12-16

    Abstract: 本公开的实施例公开了用于生成图文结构化信息的方法和装置。该方法的一具体实施方式包括:对待处理的图文混排的版式文档的段落进行识别,得到段落信息,其中,上述段落信息包括用于表征上述段落所在范围的段落外接边框信息;根据上述段落外接边框信息,确定上述段落内的版式图文要素信息;对上述版式图文要素信息进行图元类别信息读取、判定并标记,得到版式图文信息;根据预设的上述版式图文信息的阅读顺序,进行分析、拆分、重排图元对象,得到图文信息;将上述图文信息映射成图文结构化信息。该实施方式实现了图文结构化信息准确生成,进而增强了文档在不同设备上显示的自适应性。

    用于生成图文结构化信息的方法和装置

    公开(公告)号:CN111046096B

    公开(公告)日:2023-11-24

    申请号:CN201911296540.8

    申请日:2019-12-16

    Abstract: 本公开的实施例公开了用于生成图文结构化信息的方法和装置。该方法的一具体实施方式包括:对待处理的图文混排的版式文档的段落进行识别,得到段落信息,其中,上述段落信息包括用于表征上述段落所在范围的段落外接边框信息;根据上述段落外接边框信息,确定上述段落内的版式图文要素信息;对上述版式图文要素信息进行图元类别信息读取、判定并标记,得到版式图文信息;根据预设的上述版式图文信息的阅读顺序,进行分析、拆分、重排图元对象,得到图文信息;将上述图文信息映射成图文结构化信息。该实施方式实现了图文结构化信息准确生成,进而增强了文档在不同设备上显示的自适应性。

    一种XML数据处理方法、系统和存储介质

    公开(公告)号:CN111125439A

    公开(公告)日:2020-05-08

    申请号:CN201911241767.2

    申请日:2019-12-06

    Abstract: 本发明公开了一种XML数据处理方法、系统和存储介质,该方法包括:在读入XML数据过程中将XML数据中的每个XML元素节点绑定一个节点标识,其中,节点标识是整数编码值;将节点标识与预设列表相关联,其中,预设列表包括节点标识的名称表、节点标识的子节点标识列表、节点标识的节点文本列表和节点标识的属性列表;根据节点标识和预设列表构建以节点标识及其兄弟节点的索引值为参数入口的XML数据处理接口集;根据XML数据处理接口集封装用户的相关操作,其中,相关操作至少包括定位元素节点、添加元素节点、删除元素节点、给元素节点赋值和/或导出保存XML数据。通过本发明解决了现有技术缺陷造成的处理效率低下的问题。

    生成目录结构化信息的方法和装置

    公开(公告)号:CN110705503A

    公开(公告)日:2020-01-17

    申请号:CN201910973998.6

    申请日:2019-10-14

    Abstract: 本公开的实施例公开了生成目录结构化信息的方法和装置。该方法的一具体实施方式包括:获取待处理版式文档,待处理版式文档包括目录;基于目录的目录特征信息,对目录进行识别,得到版式目录信息;对版式目录信息依次进行去噪、分栏、成行分段、去重处理,得到处理后的版式目录信息;将处理后的版式目录信息映射为目录结构化信息。该实施方式增强了目录在不同设备上显示的自适应性。

Patent Agency Ranking