-
公开(公告)号:CN103530369A
公开(公告)日:2014-01-22
申请号:CN201310478890.2
申请日:2013-10-14
Applicant: 浪潮(北京)电子信息产业有限公司
IPC: G06F17/30
CPC classification number: G06F17/30887
Abstract: 本发明公开了一种去重方法,包括:获取存储于Hadoop集群系统中的任意一个或多个节点中,或者分布于任意网络资源中的URL数据;按照Hadoop集群系统的映射框架中所指定的输入类格式,对获得的URL数据进行映射处理;按照Hadoop集群系统中的归约框架中所指定的类格式,对映射处理的结果进行归约处理,归约处理的结果为对URL去重的结果;其中映射处理在Hadoop集群系统的一个或多个节点中执行,归约处理在Hadoop集群系统的一个或多个节点中执行,映射处理和归约处理分别在Hadoop集群系统的一个或多个节点中并发、或顺序执行。