-
公开(公告)号:CN110442421A
公开(公告)日:2019-11-12
申请号:CN201910578655.X
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/455
Abstract: 本发明提出一种基于Kubernetes的通用服务转换方法和系统,包括:构建由多个节点构成的Kubernetes系统,其中节点的Pod设有用于提供服务的原服务容器,并通过在Pod中新添加容器的方式或通过原容器镜像的方式,在节点的Pod中加入转换程序;每当发生一次服务调用请求,转换容器或程序根据配置,将服务调用请求转换为原服务执行请求,通过调用原服务容器,提供相对应的服务,并转换成该服务调用请求所对应的服务结果。本发明可解决Kubernetes服务与调用者之间接口不一致的问题;并可减少转换程序与服务程序、调用程序之间的网络开销,同时结合Kubernetes特性,服务程序重新部署时,转换程序自动跟随部署。
-
公开(公告)号:CN108897749A
公开(公告)日:2018-11-27
申请号:CN201810355382.8
申请日:2018-04-19
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及一种基于语法树和文本块密度的网页信息抽取方法,包括:获取网页的标题文本信息;设定筛选阈值,计算该网页所有节点的文本块密度,以该文本块密度大于该筛选阈值的节点为采集节点,提取该采集节点的节点文本信息;若该采集节点的数量为1,则以该节点文本信息为目标信息进行抽取;若该采集节点的数量大于1,则将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树;获得每个该节点深层语法树与该标题深层语法树的整体相似度,以该整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。
-
公开(公告)号:CN108769115A
公开(公告)日:2018-11-06
申请号:CN201810354384.5
申请日:2018-04-19
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: H04L29/08
CPC classification number: H04L67/1008
Abstract: 本发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。
-
公开(公告)号:CN106294335A
公开(公告)日:2017-01-04
申请号:CN201510236792.7
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明要解决的技术问题是提供一种用于微博的热点话题检测方法及装置,涉及网络信息挖掘技术领域,能够解决特征高度稀疏的微博文本热点话题检测困难的问题。所述方法包括:提取信息流中的有意义串并对所述有意义串进行热度分析,以从中筛选出热点特征;根据信息瓶颈理论对所述热点特征进行特征合并,并且计算合并后的合并程度指示参数;根据所述合并程度指示参数确定热点话题。
-
公开(公告)号:CN106294333A
公开(公告)日:2017-01-04
申请号:CN201510236634.1
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。
-
公开(公告)号:CN106294332A
公开(公告)日:2017-01-04
申请号:CN201510236598.9
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独立使用的语言单元;提取有意义字符串的异质属性信息;根据异质属性信息对有意义字符串进行分类,得到微博话题相关的特征项,采用该方案能提高微博信息中的特征项提取的准确性。
-
公开(公告)号:CN110427264B
公开(公告)日:2021-11-30
申请号:CN201910578638.6
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/50 , G06F16/951
Abstract: 本发明提出一种基于Kubernetes的JS解析方法及系统,包括:多台物理机、采集结果库、系统监控模块和解析任务控制模块;物理机,用于根据任务部署JS解析Pod,执行网页采集,将得到的采集结果存至采集结果库;系统监控模块,用于自动读取物理机的机器信息;解析任务控制模块,用于查询系统监控模块,得到各物理机的机器信息,以计算各物理机应部署的JS解析Pod个数,调用Kubernetes API调整各物理机的JS解析Pod个数。本发明有效的利用了空闲时间执行JS解析相关任务,并减小了JS解析的资源消耗。
-
公开(公告)号:CN110427264A
公开(公告)日:2019-11-08
申请号:CN201910578638.6
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/50 , G06F16/951
Abstract: 本发明提出一种基于Kubernetes的JS解析方法及系统,包括:多台物理机、采集结果库、系统监控模块和解析任务控制模块;物理机,用于根据任务部署JS解析Pod,执行网页采集,将得到的采集结果存至采集结果库;系统监控模块,用于自动读取物理机的机器信息;解析任务控制模块,用于查询系统监控模块,得到各物理机的机器信息,以计算各物理机应部署的JS解析Pod个数,调用Kubernetes API调整各物理机的JS解析Pod个数。本发明有效的利用了空闲时间执行JS解析相关任务,并减小了JS解析的资源消耗。
-
公开(公告)号:CN106294333B
公开(公告)日:2019-10-29
申请号:CN201510236634.1
申请日:2015-05-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/332 , G06F16/953
Abstract: 本发明提供一种微博突发话题检测方法及装置,用以解决目前微博突发话题难以识别的问题,该方法包括,提取指定的微博数据集合中的特征项,特征项为包含具体语义的语言单元;确定特征项在微博数据集合的文本中的流通度以及特征项当前的热度;以流通度为质量参数项,以热度为位置参数项对特征项进行动力学建模,得到特征项的当前能量和加速度;在得到的能量以及加速度分别大于第一预设值以及第二预设值时,检测突发特征项;根据检测到的突发特征项在同一条微博中同时出现的情况计算突发特征项之间的互信息;当互信息大于第三阈值时,对突发特征项进行合并,得到突发话题,该方案能够提高微博突发话题检测的准确率。
-
公开(公告)号:CN112667872B
公开(公告)日:2023-04-07
申请号:CN202011290564.5
申请日:2020-11-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院计算技术研究所
IPC: G06F16/951 , G06F16/9532 , G06F16/25 , G06F9/445 , G16H50/80
Abstract: 本发明公开了新冠肺炎疫情数据的实时采集方法,包括以下步骤:一、建立配置文件,将多个信源网站内实时反映疫情数据的网页的基本信息预置在配置文件中,包括多个字段的名称、各字段的存储路径,各字段的被采纳次数;二、采集网页数据,通过配置文件中待采集字段的存储路径从多个信源网站采集待采集字段当前的数值;三、数据对齐处理,以待采集字段的数据对齐结果为待采集字段的采集数据;步骤四、更新配置文件,将各信源网站中待采集字段的数值与待采集字段的采集数据相同的信源网站中待采集字段的被采纳次数加1。本发明的方法从多个信源网站的实时数据中获取可信度最高的数据作为采集数据,提高了疫情实时数据的准确性。
-
-
-
-
-
-
-
-
-