-
公开(公告)号:CN109815382A
公开(公告)日:2019-05-28
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN104346425B
公开(公告)日:2017-10-31
申请号:CN201410363667.8
申请日:2014-07-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
Abstract: 本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
-
公开(公告)号:CN105045857A
公开(公告)日:2015-11-11
申请号:CN201510401458.2
申请日:2015-07-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/35
Abstract: 本发明公开了一种社交网络谣言识别方法及系统,该方法包括获取微博信息例,并获取所述微博信息例的微博信息与用户信息,根据所述微博信息与所述用户信息,提取所述微博信息例的微博内容特征,所述微博内容特征包括浅层文本特征与微博深层隐含特征;根据所述用户信息,提取所述用户的基本属性特征与用户深层隐含特征,根据所述微博信息提取所述微博的微博流行度特征,所述微博流行度特征包括基于流行度及流行度趋势的波动性特征与差异性特征以及转发特征;根据所述浅层文本特征、所述微博深层隐含特征、所述基本属性特征、所述用户深层隐含特征、所述微博流行度特征,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果。
-
公开(公告)号:CN104933622A
公开(公告)日:2015-09-23
申请号:CN201510109475.9
申请日:2015-03-12
Applicant: 中国科学院计算技术研究所
IPC: G06Q50/00
Abstract: 本发明涉及社交网络分析领域,特别涉及一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
-
公开(公告)号:CN101944167B
公开(公告)日:2011-12-21
申请号:CN201010297048.5
申请日:2010-09-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明一种识别恶意程序的方法和系统,方法包括:步骤1,获取计算机系统中所有进程的信息和进程行为,根据进程之间的父子关系建立进程关系树,对应每个进程保存进程的信息和进程行为的列表;步骤2,将父进程的进程行为列表中的进程行为分类,按进程关系树从上到下的顺序,依据分类将父进程信息分配到子进程;步骤3,按进程关系树和进程信息进行符号化,依据预设的恶意行为阈值判断出恶意程序,将恶意程序在计算机系统中运行,得到用于判断恶意程序的专家系统;步骤4,当新程序进程产生时,利用专家系统判断新程序是否为恶意程序。本发明的实现复杂度相对于现有技术较低,能够提高效率。
-
公开(公告)号:CN1508721A
公开(公告)日:2004-06-30
申请号:CN02157881.8
申请日:2002-12-20
Applicant: 中国科学院计算技术研究所
Abstract: 本发明一种快速内容分析的多关键词匹配方法,包括如下步骤:1)对关键词进行预处理;2)根据字符在关键词中出现的概率,建立每个字符的哈夫曼编码,然后把每个关键词编码为一个整数;3)使用全部关键词建立一张检测表;4)对文本进行扫描;5)使用该检测表,快速的进行文本内容分析。它能根据关键词中的每个字的出现频率,进行动态调整,从而提高多关键词匹配的速度。与传统的文件内容分析相比,本发明的特点是:针对大量短关键词集合设计了新的基于哈夫曼编码的多关键词匹配算法(Huff-Match)。使用这种新算法,提高了内容分析系统的性能。本发明适用于高性能网络信息过滤、入侵检测、信息监控、病毒检测等领域。
-
公开(公告)号:CN109815382B
公开(公告)日:2022-07-12
申请号:CN201811634238.4
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/951
Abstract: 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任务,获取结构化数据;监控该采集任务的执行状态,统计该结构化数据,并将监控结果和统计结果发送给用户。本发明的大规模网络数据感知与获取系统,按照不同的功能逻辑,划分为采集子平台、调度子平台、信源管理与配置子平台和监控与统计子平台,本系统是集大规模网络数据的感知发现、多信息来源的网络数据获取、高质量信息抽取及用户友好性交互界面于一体的通用大规模网络数据感知系统。
-
公开(公告)号:CN109819019B
公开(公告)日:2021-04-27
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109819019A
公开(公告)日:2019-05-28
申请号:CN201811634634.7
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明涉及一种网络数据采集的监控与统计分析方法,包括:用户可查询采集节点的工作状态、调度节点的工作状态和采集任务的工作状态;对使用信源采集的结构化数据进行统计,以获取针对该信源的采集量,以及该信源的活跃等级,并根据该用户的查询请求,将该采集量和/或该活跃等级发送给该用户;通过比较该采集量的变化量和/或该结构化数据的相似度的变化量,获取该信源的实时状态,发现潜在失效信源,并推送给该用户,以辅助该用户对该信源进行管理。
-
公开(公告)号:CN109815387A
公开(公告)日:2019-05-28
申请号:CN201811637869.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/953
Abstract: 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执行脚本执行到调用函数时,判断调用函数是否为采集函数,若是,则将采集网页的任务发给网页采集模块,对执行脚本指定的网址进行网页采集处理,得到网址的网页信息作为采集函数的返回值,否则执行调用函数调用的功能,并将执行结果作为调用函数的返回值。由此本发明可通过调用服务的方式处理复杂的网页采集任务,适应性更强。
-
-
-
-
-
-
-
-
-