-
公开(公告)号:CN109389140A
公开(公告)日:2019-02-26
申请号:CN201710693112.3
申请日:2017-08-14
Applicant: 中国科学院计算技术研究所
IPC: G06K9/62
Abstract: 本发明涉及一种基于Spark的快速寻找聚类中心的方法,涉及计算机信息获取和处理技术。本发明实现了基于Spark的并行CFSFDP聚类算法,利用内存并行计算框架解决了CFSFDP聚类算法处理数据规模小、效率低的问题。基于Spark的并行CFSFDP聚类算法首先通过把两点距离计算分成完全独立的子部分,再将计算结果在汇总服务器上处理分析,然后继续将一系列计算任务切割成独立子任务,汇总到一台服务器上,最终并行计算得到聚类中心,在得到聚类中心后串行计算得到所有数据点的类别。本发明在处理数据中充分发挥了CFSFDP算法的优点,弥补一些常用并行聚类算法的不足。
-
公开(公告)号:CN108364073A
公开(公告)日:2018-08-03
申请号:CN201810062864.4
申请日:2018-01-23
Applicant: 中国科学院计算技术研究所
IPC: G06N99/00
CPC classification number: G06N20/00
Abstract: 本发明提供一种多标记学习模型的训练方法。该方法包括以下:利用给定的多标记数据训练集对包含自动编码机和多分类模型的多标记学习模型进行训练;检查所述多标记学习模型的损失函数,所述多标记学习模型的损失函数包括所述自动编码机的损失项以及所述多分类模型的损失项;在所述损失函数不满足预定的精度要求时,迭代所述自动编码机和所述多分类模型的相关参数;获得所述多分类模型对应的训练分类器以及所述自动编码机的优化权重矩阵和偏置向量。采用本发明获得的训练模型对数据进行多分类,能够有效的利用大量未标记的数据,提高了分类的精确度。
-
公开(公告)号:CN107871008A
公开(公告)日:2018-04-03
申请号:CN201711142442.X
申请日:2017-11-17
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30864 , G06F17/2775
Abstract: 一种生成用于用户代理信息的数据库的方法。本发明提供一种生成APP字典库的方法,所述方法包括:A1)从收集的DPI数据中获取UserAgent字段;A2)对所述UserAgent字段进行分词,获得一个或多个关键词;A3)在互联网上检索所述关键词,计算所述关键词为APP名称的概率。并且,本发明还提供了一种在线地对用户所使用的APP进行识别的方法以供软件、应用的开发者使用。
-
公开(公告)号:CN103729428B
公开(公告)日:2017-04-12
申请号:CN201310727192.1
申请日:2013-12-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。
-
公开(公告)号:CN106203631A
公开(公告)日:2016-12-07
申请号:CN201610524750.8
申请日:2016-07-05
Applicant: 中国科学院计算技术研究所
CPC classification number: G06N5/025 , H04L63/1416
Abstract: 本发明提出描述型多维度事件序列的并行频繁情节挖掘方法与系统,涉及互联网技术领域,该方法包括按照事件属性将所述事件序列分为多个事件子序列,对每个事件子序列进行挖掘,并将挖掘结果进行存储,将相同的事件子序列进行计数累加,将计数结果小于预设阈值的事件子序列过滤,生成事件子序列集合;以待扩展情节为前缀,连接所述事件子序列集合中任一项所述事件子序列,生成新的情结,计算所述新的情结的发生,并存储到发生集合,通过递归对所述新的情结进行扩展。本发明实现了子序列之间挖掘的完全并行,即在多节点同时计算各子序列的所有情节及其发生集合,最终合并所有子序列的挖掘结果获得全局频繁情节。
-
公开(公告)号:CN103729428A
公开(公告)日:2014-04-16
申请号:CN201310727192.1
申请日:2013-12-25
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30707
Abstract: 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。
-
公开(公告)号:CN118297073A
公开(公告)日:2024-07-05
申请号:CN202410370432.5
申请日:2024-03-28
Applicant: 中国科学院计算技术研究所
IPC: G06F40/30 , G06F40/295 , G06Q40/04
Abstract: 本发明提出一种金融大数据场景下的细粒度情感分析方法和装置,包括:构建包括多级事件类型集的金融事件标签体系;通过大模型识别金融文本中公司实体;以该金融文本和该公司实体作为该大模型的输入,指导该大模型从该金融事件标签体系中的第一级事件类型集中选择事件;以该金融文本、该公司实体和选择的事件作为大模型的输入,指导该大模型从选择的事件对应的第二级事件类型集中选择事件;使用该金融文本和选择的一二级事件作为该大模型输入,指导该大模型从情感极性列表中选择情感作为该公司实体对应选择的一二级事件的情感分析结果。
-
公开(公告)号:CN111259933B
公开(公告)日:2023-06-13
申请号:CN202010022431.3
申请日:2020-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F18/2431 , G06N5/01 , G06F16/27 , G06F16/28 , G06F16/2458
Abstract: 本发明提出一种基于分布式并行决策树的高维特征数据分类方法及系统。实现了基于Spark的面向高维特征数据的并行决策树算法,该并行算法并行程度高,可以处理大规模数据集,不仅在决策树中同一层节点之间进行并行计算,而且能够在特征层面上进行并行计算,提高了高维数据的并行程度,能够有效减少高维特征的处理时间。
-
公开(公告)号:CN115329183A
公开(公告)日:2022-11-11
申请号:CN202110507498.0
申请日:2021-05-10
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/906 , G06Q30/02 , G06Q30/06 , G06N3/08
Abstract: 本申请实施例公开了一种数据处理方法、装置、存储介质及设备。方法包括:获取样本推荐对象集合中的N个候选推荐对象,将每个候选推荐对象分别对应的对象特征,以及被推荐用户对应的用户特征输入初始预测模型中,通过初始预测模型预测目标推荐对象;根据目标推荐对象对应的用户反馈标签以及目标推荐对象对应的预测推荐特征,确定初始预测模型对应的候选模型参数以及候选模型参数对应的调整度;根据候选模型参数以及调整度,确定初始预测模型对应的目标模型参数;根据目标模型参数,对初始预测模型进行参数更新,将满足收敛条件的初始预测模型确定目标预测模型。通过本申请,可以提高目标预测模型进行对象推荐的预测准确率。
-
公开(公告)号:CN108563715B
公开(公告)日:2020-12-04
申请号:CN201810271602.9
申请日:2018-03-29
Applicant: 中国科学院计算技术研究所
IPC: G06F16/2458 , G06F16/22 , G06F8/30
Abstract: 本发明涉及一种分布式的趋同行为挖掘方法和系统,包括:获取由四元组数据组成的数据集合,四元组数据包括对象、事件、时间点和权重,将数据集合按照事件类型划分为多个事件集合;为事件集合构建索引树,根据事件集合中的时间点确定索引树的时间总长,根据线段树划分法将时间总长拆分为时间段,索引树的每个节点对应时间段中每个对象的权重和,存储索引树至分布式数据库;获取待查询对象的待查询事件和待查询时间段,在分布式数据库查找与待查询事件相对应的索引树,作为待查询索引树,在待查询索引树中查询待查询时间段中每个对象的权重和,作为待查询对象的趋同程度,选择趋同程度最高的对象作为挖掘结果。
-
-
-
-
-
-
-
-
-