-
公开(公告)号:CN105447097A
公开(公告)日:2016-03-30
申请号:CN201510765008.1
申请日:2015-11-10
Applicant: 北京北信源软件股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明提供了一种数据采集方法及系统,所述方法包括:多个节点启动时自动注册到zookeeper服务器上;所述zookeeper服务器从所述多个节点中确定主节点和采集节点;所述主节点获取采集任务,并将获取的采集任务存入集群数据库中;所述主节点将已存入集群数据库的采集任务分配给所述主节点和/或多个采集节点,以使所述主节点和/或各采集节点读取所述集群数据库中相应的采集任务;当某一采集节点出现故障时,所述主节点收回该采集节点的采集任务,并将该采集任务分配给所述主节点和/或除该采集节点以外的其他采集节点。本发明实现了对爬虫集群的有效状态监控和管理、提高了数据采集的效率,且具有较强的容错能力。
-
公开(公告)号:CN105320746A
公开(公告)日:2016-02-10
申请号:CN201510622636.4
申请日:2015-09-25
Applicant: 北京北信源软件股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/9566
Abstract: 本发明提供了一种基于大数据的索引获取方法及系统,该基于大数据的索引获取方法包括:对数据进行第一次解析,获取数据的关键词;根据关键词对数据进行分类,并将分类后的数据存储数据库,获取与分类后的数据对应的rowkey;根据与分类后的数据对应的rowkey和关键词建立索引。本发明通过数据中的关键词以及存储数据时生成的rowkey来建立索引,以将数据库中的数据与索引中的rowkey建立对应关系,在后续的检索中,只需要获取rowkey,即可获取rowkey对应的数据,提高了在海量数据中检索的速度。
-