一种确定数据样本类别的方法及其系统

    公开(公告)号:CN101799748A

    公开(公告)日:2010-08-11

    申请号:CN200910077994.6

    申请日:2009-02-06

    Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。

    一种确定数据样本类别的方法及其系统

    公开(公告)号:CN101799748B

    公开(公告)日:2013-02-13

    申请号:CN200910077994.6

    申请日:2009-02-06

    Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。

Patent Agency Ranking