-
公开(公告)号:CN109815382A
公开(公告)日:2019-05-28
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN109815382B
公开(公告)日:2022-07-12
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN109819019B
公开(公告)日:2021-04-27
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109819019A
公开(公告)日:2019-05-28
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109753596B
公开(公告)日:2021-05-25
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒‑信簇‑信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。
-
公开(公告)号:CN109753596A
公开(公告)日:2019-05-14
申请号:CN201811637397.X
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/95
Abstract: 本发明涉及一种网络数据采集的信源管理与配置方法,包括:感知网络数据的信息来源,将该信息来源拆分为传媒、信簇和信源;根据信簇类别对该信簇进行类别标注;根据信源类别对该信源进行类别标注;根据该信源的信源类别配置采集模板;根据该信源所包含的网络数据配置抽取模板;当验证该信源为潜在失效信源时,将该信源置为无效,或重新配置该采集模板和/或该抽取模板。本发明的信源管理与配置系统,通过“传媒-信簇-信源”三级结构的分层概念体系和多维度的信息来源分类体系对来自不同类型的信息来源进行合理高效组织,进而实现对大规模网络信息来源的精确感知并设计采集策略。
-
-
-
-
-