-
公开(公告)号:CN102955810B
公开(公告)日:2015-12-02
申请号:CN201110249270.2
申请日:2011-08-26
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明中,提高了网页分类的效率和成功率。
-
公开(公告)号:CN102375837B
公开(公告)日:2014-12-31
申请号:CN201010257383.2
申请日:2010-08-19
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本申请提供了数据采集系统和方法。数据采集系统可包括多个调度服务器和多个采集服务器。调度服务器可包括生成单元,生成采集任务;发送单元,将采集任务发送给多个采集服务器中当前处于待接收状态的采集服务器。采集服务器可包括拆分单元,将接收到的采集任务拆分为多个子任务;子任务发送单元,将多个子任务发送给多个调度服务器中当前处于待接收状态的调度服务器。调度服务器接收到的子任务可由调度服务器的发送单元发送给多个采集服务器中当前处于待接收状态的采集服务器。采集服务器可进一步包括执行单元,根据所接收的子任务,执行数据采集。通过本申请,可提高数据采集的效率,并能够利用分布式并行处理能力,实现针对海量数据的数据采集。
-
公开(公告)号:CN102375837A
公开(公告)日:2012-03-14
申请号:CN201010257383.2
申请日:2010-08-19
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明提供了数据采集系统和方法。数据采集系统可包括多个调度服务器和多个采集服务器。调度服务器可包括生成单元,生成采集任务;发送单元,将采集任务发送给多个采集服务器中当前处于待接收状态的采集服务器。采集服务器可包括拆分单元,将接收到的采集任务拆分为多个子任务;子任务发送单元,将多个子任务发送给多个调度服务器中当前处于待接收状态的调度服务器。调度服务器接收到的子任务可由调度服务器的发送单元发送给多个采集服务器中当前处于待接收状态的采集服务器。采集服务器可进一步包括执行单元,根据所接收的子任务,执行数据采集。通过本发明,可提高数据采集的效率,并能够利用分布式并行处理能力,实现针对海量数据的数据采集。
-
公开(公告)号:CN102955810A
公开(公告)日:2013-03-06
申请号:CN201110249270.2
申请日:2011-08-26
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明中,提高了网页分类的效率和成功率。
-
-
-