-
公开(公告)号:CN102214213B
公开(公告)日:2013-06-19
申请号:CN201110143821.7
申请日:2011-05-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种采用决策树的数据分类方法和系统。所述方法,包括下列步骤:基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;根据所述决策树,对输入的数据记录进行分类。其实现了基于MapReduce的并行决策树ID3算法,不仅可以处理大规模数据集,而且并行效率高,即实现构建决策树中节点内部以及同一层节点之间的并行计算。