-
公开(公告)号:CN105404676A
公开(公告)日:2016-03-16
申请号:CN201510813149.6
申请日:2015-11-20
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30321 , G06F17/30339 , G06F17/30345 , G06F17/30442
Abstract: 本发明公开了一种基于HFile的HBase二级索引更新方法及系统,该方法包括:解析步骤,监视HBase数据库刷新HFile文件的过程,当针对目标索引列产生了用户操作并生成有HFile文件时,解析该HFile文件并据以更新二级索引表;延迟步骤,在到达HFile文件的compaction操作的启动时间点时,判断该compaction操作所对应的HFile文件是否已经执行该解析该HFile文件的步骤,如果否,延迟该compaction操作的启动时间点,如果是,执行该compaction操作。本发明选择基于HBase文件存储中的HFile这一粒度层次来确定索引更新,不需要大幅度修改HBase源码,不需要维护多余的源表信息,在实现上与用户数据操作异步,不影响用户的时间体验,将索引数据更新维护与源表数据操作解耦。提高了HBase源表数据与二级索引表的同步程度。
-
公开(公告)号:CN105159915A
公开(公告)日:2015-12-16
申请号:CN201510419480.X
申请日:2015-07-16
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30327 , G06F17/30483
Abstract: 本发明适用于文件处理技术领域,提供了一种可动态适应的LSM树合并方法,所述方法包括:将键值区间划分为若干节点,将所述节点组织为树形结构,每个所述节点对应一键值区间,每个所述键值区间包含对应该键值区间范围的文件;根据当前数据的分布动态调整树的形状;当有新写入的文件时,遍历树寻找最适节点放入;对文件进行处理时,对节点内部进行Minor Compact处理,并且只通过叶节点执行Major Compact。本发明还相应的提供一种实现上述方法的可动态适应的LSM树合并系统。借此,本发明可以实现动态适应数据的分布,提高数据合并效率。
-
公开(公告)号:CN105045894A
公开(公告)日:2015-11-11
申请号:CN201510463230.6
申请日:2015-07-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/3048 , G06F17/30545 , G06F17/30575
Abstract: 本发明涉及分布式信息处理技术领域,特别涉及一种面向分布式顺序表的缓存方法及系统,该方法包括为所有数据块设置基础分值,当进行数据查询操作时,通过分布式顺序表,获取数据查询操作所涉及的数据范围,统计数据范围中各数据块将要被访问的访问次数,将访问次数累加到相应的数据块;当数据块被缓存命中时,被命中的数据块的分值减去固定值,当缓存空间已满时,则触发缓存的换出操作,在换出操作开始时,根据数据块的分值进行排序,从分值最小的数据块开始淘汰,直到缓存空间能够增加数据块。
-
公开(公告)号:CN103116635B
公开(公告)日:2015-06-24
申请号:CN201310049317.X
申请日:2013-02-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种面向领域的暗网资源采集方法。该方法从抓取的页面中识别与指定领域相关的页面,获取有效表单集合;对于有效表单集合中的每个表单,判断其表单类型并按照不同的表单类型构造有效查询,所述表单类型为单输入项的表单或多输入项的表单;以及输出有效的查询所返回的结果,作为采集的暗网资源。该方法能够实现暗网资源查询接口的自动识别和分类,同时实现简单查询接口和复杂查询接口的查询的有效构造,从而实现暗网资源的采集。该方法不仅能够无缝的集成到现有的搜索引擎当中,而且能够同时进行简单查询接口和复杂查询接口所指向的暗网资源的采集。
-
公开(公告)号:CN104636466A
公开(公告)日:2015-05-20
申请号:CN201510071993.6
申请日:2015-02-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向开放网页的实体属性抽取方法和系统。其中,所述方法包括:提取开放网页的文本,从中获得目标实体的候选文本集合;以及,根据目标实体属性在训练文本集合中出现的频率,选择基于规则的方式或者基于统计的方式从所述候选文本集合中抽取目标实体属性的值。本发明能够提高开放网页实体属性抽取的准确率和召回率,并且不依赖于网页结构,能够适应开放网页类型的变化。
-
公开(公告)号:CN104615687A
公开(公告)日:2015-05-13
申请号:CN201510033050.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30734 , G06F17/30705
Abstract: 本发明提供一种面向知识库更新的实体细粒度分类方法与系统。所述方法包括:从文本中识别出实体;将识别出的实体、知识库中与其相关的实体以及相关实体在知识库中的分类作为结点构建依赖图,其中依赖图中的边的权值表示该边连接的两个结点之间的相关程度;以及,通过在所述依赖图上执行重启动随机游走,得到识别出的实体所属的分类。本发明能够克服现有技术在实体上下文缺乏的情况下难以实现对该实体进行细粒度分类的缺陷,并且提高了实体细粒度分类的准确率。
-
公开(公告)号:CN104346425A
公开(公告)日:2015-02-11
申请号:CN201410363667.8
申请日:2014-07-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
-
公开(公告)号:CN102609460B
公开(公告)日:2015-02-04
申请号:CN201210011178.7
申请日:2012-01-13
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种基于用户分类的微博客数据采集方法。该方法首先初始化用户进行用户分类的数据;对获得的用户特征进行提取,取得可用于进行用户确定的特征数据;对提取出的数据进行过滤,多过滤后的数据根据特征之间的关系进行用户类型确定;对不同类别的用户采用不同的策略进行数据采集。该方法能够保证微博客数据采集的完整性和实时性,并能进行自适应的调整,以适应网络数据的变化。
-
公开(公告)号:CN101882136B
公开(公告)日:2015-02-04
申请号:CN200910083522.1
申请日:2009-05-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种文本情感倾向性分析方法,包括下列步骤:1)根据训练文本的标签确定测试文本的初始情感分;2)基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化;3)当所述迭代结束时,根据所述计算的结果判别所述测试文本的情感倾向性。本发明提供的文本情感倾向性方法能够大幅提高对新领域的文本进行分类的精度。
-
公开(公告)号:CN104268148A
公开(公告)日:2015-01-07
申请号:CN201410429698.9
申请日:2014-08-27
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30876
Abstract: 本发明公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。
-
-
-
-
-
-
-
-
-