一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148B

    公开(公告)日:2018-02-06

    申请号:CN201410429698.9

    申请日:2014-08-27

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

    一种基于时间串的论坛页面信息自动抽取方法及系统

    公开(公告)号:CN104268148A

    公开(公告)日:2015-01-07

    申请号:CN201410429698.9

    申请日:2014-08-27

    CPC classification number: G06F17/30876

    Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

    大规模网络数据的感知与获取方法和系统

    公开(公告)号:CN109815382B

    公开(公告)日:2022-07-12

    申请号:CN201811634238.4

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

    大规模网络数据的感知与获取方法和系统

    公开(公告)号:CN109815382A

    公开(公告)日:2019-05-28

    申请号:CN201811634238.4

    申请日:2018-12-29

    Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。

Patent Agency Ranking