基于Spark的快速寻找聚类中心的方法和系统

    公开(公告)号:CN109389140A

    公开(公告)日:2019-02-26

    申请号:CN201710693112.3

    申请日:2017-08-14

    Abstract: 本发明涉及一种基于Spark的快速寻找聚类中心的方法,涉及计算机信息获取和处理技术。本发明实现了基于Spark的并行CFSFDP聚类算法,利用内存并行计算框架解决了CFSFDP聚类算法处理数据规模小、效率低的问题。基于Spark的并行CFSFDP聚类算法首先通过把两点距离计算分成完全独立的子部分,再将计算结果在汇总服务器上处理分析,然后继续将一系列计算任务切割成独立子任务,汇总到一台服务器上,最终并行计算得到聚类中心,在得到聚类中心后串行计算得到所有数据点的类别。本发明在处理数据中充分发挥了CFSFDP算法的优点,弥补一些常用并行聚类算法的不足。

    一种多标记学习方法
    13.
    发明公开

    公开(公告)号:CN108364073A

    公开(公告)日:2018-08-03

    申请号:CN201810062864.4

    申请日:2018-01-23

    CPC classification number: G06N20/00

    Abstract: 本发明提供一种多标记学习模型的训练方法。该方法包括以下:利用给定的多标记数据训练集对包含自动编码机和多分类模型的多标记学习模型进行训练;检查所述多标记学习模型的损失函数,所述多标记学习模型的损失函数包括所述自动编码机的损失项以及所述多分类模型的损失项;在所述损失函数不满足预定的精度要求时,迭代所述自动编码机和所述多分类模型的相关参数;获得所述多分类模型对应的训练分类器以及所述自动编码机的优化权重矩阵和偏置向量。采用本发明获得的训练模型对数据进行多分类,能够有效的利用大量未标记的数据,提高了分类的精确度。

    一种大数据分类方法及系统

    公开(公告)号:CN103729428B

    公开(公告)日:2017-04-12

    申请号:CN201310727192.1

    申请日:2013-12-25

    Abstract: 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。

    描述型多维度事件序列的并行频繁情节挖掘方法与系统

    公开(公告)号:CN106203631A

    公开(公告)日:2016-12-07

    申请号:CN201610524750.8

    申请日:2016-07-05

    CPC classification number: G06N5/025 H04L63/1416

    Abstract: 本发明提出描述型多维度事件序列的并行频繁情节挖掘方法与系统,涉及互联网技术领域,该方法包括按照事件属性将所述事件序列分为多个事件子序列,对每个事件子序列进行挖掘,并将挖掘结果进行存储,将相同的事件子序列进行计数累加,将计数结果小于预设阈值的事件子序列过滤,生成事件子序列集合;以待扩展情节为前缀,连接所述事件子序列集合中任一项所述事件子序列,生成新的情结,计算所述新的情结的发生,并存储到发生集合,通过递归对所述新的情结进行扩展。本发明实现了子序列之间挖掘的完全并行,即在多节点同时计算各子序列的所有情节及其发生集合,最终合并所有子序列的挖掘结果获得全局频繁情节。

    一种大数据分类方法及系统

    公开(公告)号:CN103729428A

    公开(公告)日:2014-04-16

    申请号:CN201310727192.1

    申请日:2013-12-25

    CPC classification number: G06F17/30707

    Abstract: 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据块,并构造待分类模式字符串,在该Hbase数据库规则表中查找与该待分类模式字符串匹配的分类规则,并输出分类结果。由此,提供一种基于超曲面的大数据分类方法及系统,通过采用基于超曲面的覆盖算法,能在Hadoop映射/化简编程框架和Hbase分布式非关系型数据库基础上实现,且能以较低的计算代价,构建易于解释的规则模型,快速高效处理海量数据,以应对现实世界中呈爆炸式增长的数据的分类需求。

    描述型多维度事件序列的并行频繁情节挖掘方法与系统

    公开(公告)号:CN106203631B

    公开(公告)日:2019-04-30

    申请号:CN201610524750.8

    申请日:2016-07-05

    Abstract: 本发明提出描述型多维度事件序列的并行频繁情节挖掘方法与系统,涉及互联网技术领域,该方法包括按照事件属性将所述事件序列分为多个事件子序列,对每个事件子序列进行挖掘,并将挖掘结果进行存储,将相同的事件子序列进行计数累加,将计数结果小于预设阈值的事件子序列过滤,生成事件子序列集合;以待扩展情节为前缀,连接所述事件子序列集合中任一项所述事件子序列,生成新的情结,计算所述新的情结的发生,并存储到发生集合,通过递归对所述新的情结进行扩展。本发明实现了子序列之间挖掘的完全并行,即在多节点同时计算各子序列的所有情节及其发生集合,最终合并所有子序列的挖掘结果获得全局频繁情节。

    一种面向大数据的分布式主题发现方法及系统

    公开(公告)号:CN103593418A

    公开(公告)日:2014-02-19

    申请号:CN201310526790.2

    申请日:2013-10-30

    CPC classification number: G06F17/30194 G06F17/30705 G06F17/30731

    Abstract: 本发明涉及一种面向大数据的分布式主题发现系统及方法,包含三个并行处理过程,每个过程均由映射、组合、化简三个功能模块中的一个或多个组合而成,对每个输入文档的特征向量进行正规化,并且对构成该文档的每个词在本文档中出现次数进行计数;在映射功能模块端将每个文档作为一个原始类并对文档频率计数,在组合模块端对映射模块端产生的原始类进行本地聚类,生成局部类,在化简模块端对来自多个远端物理节点组合产生的局部类进行聚类,生成全局类;对第二个映射/化简过程产生全局类的内部关键词进行打分和排序,输出用户所需的K个高分关键词表达主题。从而处理TB级数据,并且计算能力线性上升,真正实现分布式计算,提高性能和效率。

Patent Agency Ranking