-
公开(公告)号:CN104182482A
公开(公告)日:2014-12-03
申请号:CN201410382359.X
申请日:2014-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30873 , G06F17/30867 , G06F17/30876
Abstract: 本发明提供一种新闻列表页判断方法及筛选新闻列表页的方法,该方法包括获取网页,判断所述网页是否为新闻网页;如果所述网页不是新闻网页,则在所述网页中采集子网页对各个子网页重复本判定流程;如果所述网页是新闻网页并且被判定为频道内新闻网页,则判断所述网页的父网页是否为新闻网页;如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;以及根据所述关联信息判断出新闻列表页等步骤。利用本发明提供的方法找到新闻列表页之后,现有的新闻采集器可以直接将新闻列表页作为起始页采集新闻内容,从而提高新闻数据的采集效率。
-
公开(公告)号:CN103853766A
公开(公告)日:2014-06-11
申请号:CN201210510056.2
申请日:2012-12-03
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/3048 , G06F17/30545
Abstract: 本发明公开了一种面向流式数据的在线处理方法,包括:步骤1,建立在线内存缓存层,对所述流式数据按照键值结构进行属性抽取后存储在所述在线内存缓存层中;步骤2,在所述内存缓存层中对所述流式数据建立混合索引结构;步骤3,对建立好索引结构的每条流式数据增加一个访问标志位,此标志位用于标志不同分析程序对于该流式数据的注册情况,同时对每一个分析程序访问流式数据的状态进行记录。步骤4,数据清理,若某流式数据被所述内存缓存层中的所有指定的分析程序访问过,则将该流式数据进行清理操作。本发明大幅度减小了流式处理过程中的数据读写压力,能够有效缓解大规模流式数据处理系统中数据库的压力,且能够提升流式数据的实时处理速度。
-
公开(公告)号:CN101388006B
公开(公告)日:2013-03-20
申请号:CN200810225031.1
申请日:2008-10-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明涉及一种自动化的文摘实验装置与方法。该方法包括:步骤1,对文摘对象数据进行预处理得到文摘数据;步骤2,调用指定的文摘算法生成自动文摘;步骤3,使用预置的标准文摘和指定的评价工具对自动文摘进行评价,并返回文摘性能评价结果;步骤4,依据文摘性能评价结果优化指定的文摘算法的性能。本发明解决了文摘实验过程中文摘算法与评价工具的跨语言无缝衔接,实现了文摘算法参数训练过程与文摘实验的自动化,使技术人员可以自主配置文摘算法与参数取值配置文件,自动地进行算法性能的验证与参数组合的学习。
-
公开(公告)号:CN101231634A
公开(公告)日:2008-07-30
申请号:CN200710308516.2
申请日:2007-12-29
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤:进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。
-
公开(公告)号:CN1258145C
公开(公告)日:2006-05-31
申请号:CN02127628.5
申请日:2002-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F12/08
Abstract: 一种基于虚拟存储的智能网络存储设备的系统,包括:智能虚拟路由装置,用于支持虚拟资源到网络存储设备的映射和多个网络存储设备之间的负载平衡;全局资源管理装置,用于在多个网络存储设备存储资源的统一分配和管理;网络存储设备,用于存储海量的物理存储资源和计算资源。本发明通过网络存储设备内部和之间的负载平衡可以发挥出所有设备综合的服务性能,虚拟存储提高了存储设备和资源的利用效率和可管理性,全局的资源管理保证了存储容量的可扩展性和I/O性能的可扩展性。
-
公开(公告)号:CN1255731C
公开(公告)日:2006-05-10
申请号:CN02122473.0
申请日:2002-06-05
Applicant: 中国科学院计算技术研究所
Abstract: 一种网络存储系统中的数据管理方法,包括步骤:将控制协议添加到基于IP网络的标准网络块设备接口协议之上;通过将控制协议的一些数据块号抽取出来,不再作为数据块的请求解析,而作为控制命令解析实现对存储设备的操作控制。本发明在基于IP网络的标准网络块设备协议之上添加控制协议,以此来控制存储设备进行相应的操作,使得文件数据的读写、元数据的读写、日志数据的读写、数据的复制与回收、数据的备份和恢复以及资源的分配与回收都在存储设备上完成,从而实现一体化的数据管理。这样就实现了基于IP网络的集中管理,与基于FC的SAN相比,其具有通用性好、造价低、实现及管理简单等特点。
-
公开(公告)号:CN104615685B
公开(公告)日:2018-01-26
申请号:CN201510032875.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。
-
公开(公告)号:CN104615685A
公开(公告)日:2015-05-13
申请号:CN201510032875.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30598 , G06F17/30705 , G06F17/30867
Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。
-
公开(公告)号:CN101388006A
公开(公告)日:2009-03-18
申请号:CN200810225031.1
申请日:2008-10-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明涉及一种自动化的文摘实验装置与方法。该方法包括:步骤1,对文摘对象数据进行预处理得到文摘数据;步骤2,调用指定的文摘算法生成自动文摘;步骤3,使用预置的标准文摘和指定的评价工具对自动文摘进行评价,并返回文摘性能评价结果;步骤4,依据文摘性能评价结果优化指定的文摘算法的性能。本发明解决了文摘实验过程中文摘算法与评价工具的跨语言无缝衔接,实现了文摘算法参数训练过程与文摘实验的自动化,使技术人员可以自主配置文摘算法与参数取值配置文件,自动地进行算法性能的验证与参数组合的学习。
-
公开(公告)号:CN1474275A
公开(公告)日:2004-02-11
申请号:CN02127628.5
申请日:2002-08-06
Applicant: 中国科学院计算技术研究所
IPC: G06F12/08
Abstract: 一种基于虚拟存储的智能网络存储设备的系统,包括:智能虚拟路由装置,用于支持虚拟资源到网络存储设备的映射和多个网络存储设备之间的负载平衡;全局资源管理装置,用于在多个网络存储设备存储资源。的统一分配和管理;网络存储设备,用于存储海量的物理存储资源和计算资源。本发明通过网络存储设备内部和之间的负载平衡可以发挥出所有设备综合的服务性能,虚拟存储提高了存储设备和资源的利用效率和可管理性,全局的资源管理保证了存储容量的可扩展性和I/O性能的可扩展性。
-
-
-
-
-
-
-
-
-