-
公开(公告)号:CN101799748B
公开(公告)日:2013-02-13
申请号:CN200910077994.6
申请日:2009-02-06
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。
-
公开(公告)号:CN101799810B
公开(公告)日:2012-09-26
申请号:CN200910077996.5
申请日:2009-02-06
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种关联规则挖掘方法及其系统。本发明方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明,可提高关联规则挖掘的处理效率。
-
公开(公告)号:CN101799807A
公开(公告)日:2010-08-11
申请号:CN200910077659.6
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种异构数据表的合并方法及其系统,本发明方法包括:为多个异构数据表分别分配表标识,并将表标识添加到相应数据表中的所有数据记录;根据设置的关键字字段,将具有相同关键字字段值但具有不同表标识的数据记录合并为新的数据记录,并将所述新的数据记录中的表标识删除;将删除了表标识的数据记录存储到新的数据表中。采用本发明,可实现异构数据表的数据合并处理,并可提高数据合并操作的效率。
-
公开(公告)号:CN101799748A
公开(公告)日:2010-08-11
申请号:CN200910077994.6
申请日:2009-02-06
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。
-
公开(公告)号:CN101799809A
公开(公告)日:2010-08-11
申请号:CN200910077661.3
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了数据挖掘方法及数据挖掘系统,本发明方法包括:设置数据挖掘的工作流,所述工作流中包括多个并行的数据处理任务;启动所述工作流,并在所述多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使所述多个并行的数据处理任务在分配的执行节点上并行执行;以及,所述执行节点在执行每个数据处理任务时,通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应数据处理任务的处理结果。采用本发明,可提高数据挖掘效率。
-
公开(公告)号:CN101799809B
公开(公告)日:2011-12-14
申请号:CN200910077661.3
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了数据挖掘方法及数据挖掘系统,本发明方法包括:设置数据挖掘的工作流,所述工作流中包括多个并行的数据处理任务;启动所述工作流,并在所述多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使所述多个并行的数据处理任务在分配的执行节点上并行执行;以及,所述执行节点在执行每个数据处理任务时,通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应数据处理任务的处理结果。采用本发明,可提高数据挖掘效率。
-
公开(公告)号:CN101799810A
公开(公告)日:2010-08-11
申请号:CN200910077996.5
申请日:2009-02-06
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种关联规则挖掘方法及其系统。本发明方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明,可提高关联规则挖掘的处理效率。
-
公开(公告)号:CN101799808A
公开(公告)日:2010-08-11
申请号:CN200910077660.9
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据处理方法和数据处理系统,本发明方法包括:并行执行多个Map任务,其中,每个Map任务获取待处理数据中相应部分的数据,并对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果;执行Reduce任务,所述Reduce任务根据所有局部处理结果得到所述待处理数据的全局处理结果。采用本发明,可提高数据挖掘过程中的数据预处理效率。
-
-
-
-
-
-
-