一种基于文本特征和语法规则的PDF全自动标引系统及方法

    公开(公告)号:CN112307718A

    公开(公告)日:2021-02-02

    申请号:CN202011339681.6

    申请日:2020-11-25

    Abstract: 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。

    基于智能创作算法的融媒体采编发系统

    公开(公告)号:CN111353077A

    公开(公告)日:2020-06-30

    申请号:CN202010143738.9

    申请日:2020-03-04

    Abstract: 本发明公开的一种基于智能创作算法的融媒体采编发系统,包括业务终端、用户终端以及业务处理平台;业务处理平台包括,内容采集与智能处理模块,用于对原始资源进行预处理和语义处理形成语料库,并接收所述业务终端采写的文本序列,从语料库中智能检索与文本序列语义相匹配的文本序列,并输出至业务终端;多渠道整合发布与运营模块,利用爬虫算法提取多种类型的融媒体资源,并在多个用户终端进行认证多渠道融合发布。本发明能够完整替换新闻出版传媒企业现有的采编发流程,极大程度地提升行业内容产生的效率,同时基于智能创作算法能够实现自动化撰写服务,由此缩短了传统采编流程中素材搜集的时间,在提升创作效率的同时输出多样化的稿件。

    基于智能创作算法的融媒体采编发系统

    公开(公告)号:CN111353077B

    公开(公告)日:2022-01-11

    申请号:CN202010143738.9

    申请日:2020-03-04

    Abstract: 本发明公开的一种基于智能创作算法的融媒体采编发系统,包括业务终端、用户终端以及业务处理平台;业务处理平台包括,内容采集与智能处理模块,用于对原始资源进行预处理和语义处理形成语料库,并接收所述业务终端采写的文本序列,从语料库中智能检索与文本序列语义相匹配的文本序列,并输出至业务终端;多渠道整合发布与运营模块,利用爬虫算法提取多种类型的融媒体资源,并在多个用户终端进行认证多渠道融合发布。本发明能够完整替换新闻出版传媒企业现有的采编发流程,极大程度地提升行业内容产生的效率,同时基于智能创作算法能够实现自动化撰写服务,由此缩短了传统采编流程中素材搜集的时间,在提升创作效率的同时输出多样化的稿件。

    一种基于文本特征和语法规则的PDF全自动标引系统及方法

    公开(公告)号:CN112307718B

    公开(公告)日:2021-05-11

    申请号:CN202011339681.6

    申请日:2020-11-25

    Abstract: 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。

Patent Agency Ranking