Patent search ap:("南京邮电大学") AND inv:"许平" Page 1

1.

发明公开
基于Spark的并行化关联挖掘优化方法无效

公开(公告)号：CN107291848A

公开(公告)日：2017-10-24

申请号：CN201710413035.1

申请日：2017-06-05

Applicant: 南京邮电大学

Inventor： 肖甫 , 许平 , 沙乐天 , 王少辉 , 韩崇 , 王汝传

IPC: G06F17/30

CPC classification number: G06F17/30303 , G06F17/30539

Abstract: 本发明公开一种基于Spark的并行化关联挖掘优化方法，先对事务数据库进行预处理，根据业务需求进行数据清洗，提取简要有效信息，将事务项数据编码化后，全部读取到内存，转换成RDD模型；在生成频繁1项集的过程中，构造新的数据结构存放1项集的事务序列号；在频繁项集连接、剪枝生成候选集的过程中，舍去候选项集的产生过程，筛选出连接后事务序列号数满足最小支持度的项集；重复以上过程，直到没有满足要求的更大的项集产生。本发明克服了Apriori算法的不足，提高了挖掘效率。

Patent Agency Ranking