-
公开(公告)号:CN111914152A
公开(公告)日:2020-11-10
申请号:CN202010615515.8
申请日:2020-06-30
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9532 , G06F16/33 , G06F16/35
Abstract: 本发明提出一种网络事件预警方法及系统,包括:针对现有网络事件预警技术在子指标的计算、指标权重的赋值、预警效果的评价方面缺乏足够客观性,进而影响预警准确率的问题,本发明提出一种网络事件预警方法及系统。在计算子指标方面,本发明充分考虑消息之间的相互影响,利用物理学中的安培定律,让预警结果尽可能地反应整个事件的走向,提升客观性,提高预警准确率。在通过子指标逐级向上计算父指标方面,本发明利用物理学中场的概念来分析指标之间的关系,并借用场的度量方法为子指标赋权重,不需要专家参与,提升赋值过程的客观性,提高预警准确率。在网络事件预警评价方面,本发明借鉴异常检测思想提出客观的预警评价方法,提高评价的准确率。
-
公开(公告)号:CN109814992A
公开(公告)日:2019-05-28
申请号:CN201811634642.1
申请日:2018-12-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种用于大规模网络数据采集的分布式动态调度方法,包括:获取网络数据所在的信源;将参与数据采集的节点注册为采集节点或调度节点;获取数据采集的调度策略;根据该调度策略和该信源的信源信息,生成采集任务;将该采集任务传递至该采集节点的采集器,以配置并启动该采集器;通过该采集器执行该采集任务,以获取采集结果。本发明的分布式调度方法是采集器、信息来源无关的通用调度方法,本方法支持多种异构采集器,支持异构节点,支持采集节点与采集器的热插拔,动态扩展。
-
公开(公告)号:CN104182482B
公开(公告)日:2018-05-22
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
公开(公告)号:CN103870506B
公开(公告)日:2017-02-08
申请号:CN201210548678.4
申请日:2012-12-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。
-
公开(公告)号:CN106027623A
公开(公告)日:2016-10-12
申请号:CN201610311718.1
申请日:2016-05-11
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
CPC classification number: H04L67/10 , H04L41/5096 , H04L67/1097
Abstract: 本发明适用于计算机技术领域,提供了一种分布式集群状态管理的方法及其系统,所述方法包括如下步骤:A、设置内存式数据库和所述分布式集群的管理者;B、通过所述内存式数据库存储所述分布式集群中至少一个集群的各节点的信息,以及通过所述分布式集群的管理者维护所述分布式集群中至少一个集群的各节点的信息。由此,提高了分布式集群的管理效率。
-
公开(公告)号:CN104346425A
公开(公告)日:2015-02-11
申请号:CN201410363667.8
申请日:2014-07-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
-
公开(公告)号:CN104182482A
公开(公告)日:2014-12-03
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30873 , G06F17/30867 , G06F17/30876
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
公开(公告)号:CN103064966A
公开(公告)日:2013-04-24
申请号:CN201210592795.0
申请日:2012-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。
-
公开(公告)号:CN113780569A
公开(公告)日:2021-12-10
申请号:CN202110813797.7
申请日:2021-07-19
Applicant: 中国科学院计算技术研究所
IPC: G06N20/00
Abstract: 本发明提出一种基于相似话题的流行度预测方法和系统,基于KSC算法对历史话题的流行度序列聚类,得到话题级别的演化模式,按照待预测话题的观测窗口和预测窗口大小,对各历史话题的流行度序列进行切分得到训练数据的输入和输出,使用各类别下的历史话题的训练数据分别训练全连接网络作为预测模型,充分利用了与待预测话题在流行度演化模式上相似的历史话题的数据,降低了预测误差。基于DTW算法对待预测话题进行分类,使用待预测话题所属类别的模型进行流行度预测,保证预测及时,增强预测的时效性。
-
公开(公告)号:CN104298732B
公开(公告)日:2018-01-09
申请号:CN201410514028.7
申请日:2014-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。
-
-
-
-
-
-
-
-
-