基于Spark内存计算大数据平台的OPTICS点排序聚类方法

    公开(公告)号:CN106682116B

    公开(公告)日:2020-08-04

    申请号:CN201611120326.3

    申请日:2016-12-08

    Abstract: 本发明提供一种基于Spark大数据平台的OPTICS聚类算法,涉及计算机信息获取和处理技术。本发明通过对并行数据结构划分,得到最优数据集划分并生成对应的RDD,并行计算邻居样本数量和核心距离,对每个分区并行执行OPTICS算法得到每个分区的簇排序并持久化存储,通过簇排序给每个分区赋予簇后,通过合并分区,每个样本能够得到全局的簇号。利用Spark分布式并行技术,找到最优的划分结构,并行计算得到每个分区的簇排序。通过OPTICS的簇排序,用户可以从不同层次结构进行观察数据集的内在聚类结构。该方法可以处理串行算法不能处理的大规模的数据集,并大幅度提高得到聚类结果的时间。

    基于Spark大数据平台的三支决策不平衡数据过采样方法

    公开(公告)号:CN106599935B

    公开(公告)日:2019-07-19

    申请号:CN201611244051.4

    申请日:2016-12-29

    Abstract: 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式 的样本集,并分成训练集和测试集;其次采用Spark的RDD进行数据变化,求样本间的距离,确定领域半径,根据邻域三支决策模型将整个训练集中的样本划分成正域样本,边界域样本和负域样本;然后分别对边界域样本,负域样本进行过采样;最后调用Spark Mllib机器学习算法,验证采样效果。本发明有效解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题。

    基于历史商家记录及用户行为的电商消费客流量预测方法

    公开(公告)号:CN107067283B

    公开(公告)日:2021-05-18

    申请号:CN201710267098.0

    申请日:2017-04-21

    Abstract: 本发明请求保护一种基于历史商家记录及用户行为的电商消费客流量预测方法,涉及计算机信息获取和机器学习技术。本发明通过读取商家的历史电商消费记录及用户的浏览消费记录,并进行数据预处理操作。然后对数据集进行提取添加新特征,通过建立一种时间序列的回归模型,最后进行预测未来每天通过电商消费客流量。本发明利用商家电商记录特性,对未来每天使用电商消费客流量进行预测,商家可以优化运营,降低成本,并改善用户体验。

    基于Spark大数据平台的三支决策不平衡数据过采样方法

    公开(公告)号:CN106599935A

    公开(公告)日:2017-04-26

    申请号:CN201611244051.4

    申请日:2016-12-29

    CPC classification number: G06K9/6256 G06K9/6262 G06K9/6271

    Abstract: 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式 的样本集,并分成训练集和测试集;其次采用Spark的RDD进行数据变化,求样本间的距离,确定领域半径,根据邻域三支决策模型将整个训练集中的样本划分成正域样本,边界域样本和负域样本;然后分别对边界域样本,负域样本进行过采样;最后调用Spark Mllib机器学习算法,验证采样效果。本发明有效解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题。

    基于历史商家记录及用户行为的电商消费客流量预测方法

    公开(公告)号:CN107067283A

    公开(公告)日:2017-08-18

    申请号:CN201710267098.0

    申请日:2017-04-21

    CPC classification number: G06Q30/0202

    Abstract: 本发明请求保护一种基于历史商家记录及用户行为的电商消费客流量预测方法,涉及计算机信息获取和机器学习技术。本发明通过读取商家的历史电商消费记录及用户的浏览消费记录,并进行数据预处理操作。然后对数据集进行提取添加新特征,通过建立一种时间序列的回归模型,最后进行预测未来每天通过电商消费客流量。本发明利用商家电商记录特性,对未来每天使用电商消费客流量进行预测,商家可以优化运营,降低成本,并改善用户体验。

    基于Spark内存计算大数据平台的OPTICS点排序聚类方法

    公开(公告)号:CN106682116A

    公开(公告)日:2017-05-17

    申请号:CN201611120326.3

    申请日:2016-12-08

    Abstract: 本发明提供一种基于Spark大数据平台的OPTICS聚类算法,涉及计算机信息获取和处理技术。本发明通过对并行数据结构划分,得到最优数据集划分并生成对应的RDD,并行计算邻居样本数量和核心距离,对每个分区并行执行OPTICS算法得到每个分区的簇排序并持久化存储,通过簇排序给每个分区赋予簇后,通过合并分区,每个样本能够得到全局的簇号。利用Spark分布式并行技术,找到最优的划分结构,并行计算得到每个分区的簇排序。通过OPTICS的簇排序,用户可以从不同层次结构进行观察数据集的内在聚类结构。该方法可以处理串行算法不能处理的大规模的数据集,并大幅度提高得到聚类结果的时间。

Patent Agency Ranking