-
公开(公告)号:CN107291848A
公开(公告)日:2017-10-24
申请号:CN201710413035.1
申请日:2017-06-05
Applicant: 南京邮电大学
IPC: G06F17/30
CPC classification number: G06F17/30303 , G06F17/30539
Abstract: 本发明公开一种基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足要求的更大的项集产生。本发明克服了Apriori算法的不足,提高了挖掘效率。