基于Spark的并行化关联挖掘优化方法

    公开(公告)号:CN107291848A

    公开(公告)日:2017-10-24

    申请号:CN201710413035.1

    申请日:2017-06-05

    CPC classification number: G06F17/30303 G06F17/30539

    Abstract: 本发明公开一种基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足要求的更大的项集产生。本发明克服了Apriori算法的不足,提高了挖掘效率。

Patent Agency Ranking