-
公开(公告)号:CN107871008A
公开(公告)日:2018-04-03
申请号:CN201711142442.X
申请日:2017-11-17
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30864 , G06F17/2775
Abstract: 一种生成用于用户代理信息的数据库的方法。本发明提供一种生成APP字典库的方法,所述方法包括:A1)从收集的DPI数据中获取UserAgent字段;A2)对所述UserAgent字段进行分词,获得一个或多个关键词;A3)在互联网上检索所述关键词,计算所述关键词为APP名称的概率。并且,本发明还提供了一种在线地对用户所使用的APP进行识别的方法以供软件、应用的开发者使用。
-
公开(公告)号:CN103729428B
公开(公告)日:2017-04-12
申请号:CN201310727192.1
申请日:2013-12-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。
-
公开(公告)号:CN106203631A
公开(公告)日:2016-12-07
申请号:CN201610524750.8
申请日:2016-07-05
Applicant: 中国科学院计算技术研究所
CPC classification number: G06N5/025 , H04L63/1416
Abstract: 本发明提出描述型多维度事件序列的并行频繁情节挖掘方法与系统,涉及互联网技术领域,该方法包括按照事件属性将所述事件序列分为多个事件子序列,对每个事件子序列进行挖掘,并将挖掘结果进行存储,将相同的事件子序列进行计数累加,将计数结果小于预设阈值的事件子序列过滤,生成事件子序列集合;以待扩展情节为前缀,连接所述事件子序列集合中任一项所述事件子序列,生成新的情结,计算所述新的情结的发生,并存储到发生集合,通过递归对所述新的情结进行扩展。本发明实现了子序列之间挖掘的完全并行,即在多节点同时计算各子序列的所有情节及其发生集合,最终合并所有子序列的挖掘结果获得全局频繁情节。
-
公开(公告)号:CN103729428A
公开(公告)日:2014-04-16
申请号:CN201310727192.1
申请日:2013-12-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30707
Abstract: 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。
-
-
-