MapReduce系统中的任务分配方法、系统及装置

    公开(公告)号:CN102255926A

    公开(公告)日:2011-11-23

    申请号:CN201010178143.3

    申请日:2010-05-17

    Abstract: 本发明公开了一种MapReduce系统中任务分配的方法、系统及装置,用以解决现有技术中客户端可能出现由于内存溢出而宕机的故障,从而影响MR系统可靠性的问题。该方法在原有MR系统中增加对各个客户端进行管理的客户端管理节点,客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,并指示该确定的客户端进行对待处理的数据进行数据分片处理。由于在本发明实施例中客户端管理节点根据各客户端的资源利用信息,确定进行数据分片处理的客户端,从而可以减小资源利用信息不满足条件的客户端进行业务处理的风险,并减小该客户端出现宕机的可能性,进而提高了MR系统的可靠性。

    一种多队列任务调度方法及相关系统和设备

    公开(公告)号:CN102096599A

    公开(公告)日:2011-06-15

    申请号:CN200910242674.1

    申请日:2009-12-14

    Abstract: 本发明公开了一种多队列任务调度方法以及相关系统和设备,用以解决现有多队列任务调度过程中不支持队列的优先级,导致无法对各作业队列进行差异化资源配置的问题。所述多队列任务调度方法,包括:调度节点在接收到任务执行节点发送的任务获取请求时,判断是否存在资源使用率小于设定的使用率阈值的作业队列;在判断结果为是时,所述调度节点从资源使用率小于所述使用率阈值的作业队列中调度任务给所述任务执行节点,在判断结果为否时,所述调度节点从优先级最高的作业队列中调度任务给所述任务执行节点。

    聚类方法及装置
    23.
    发明公开

    公开(公告)号:CN101989281A

    公开(公告)日:2011-03-23

    申请号:CN200910089176.8

    申请日:2009-08-03

    Abstract: 本发明公开了一种聚类方法,用以解决现有技术提供的检索结果聚类方法难以生成可读性较好的聚类标签的缺陷,该方法包括:根据预设的选取策略,从待聚类的各个文档中选取第一候选字串集合;针对第一候选字串集合中的各字串,根据与该字串相关的参数,从第一候选字串集合中选取第二候选字串,所述与该字串相关的参数为该字串出现在待聚类的所有文档中的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数以及待聚类的文档中包含该各字串的文档个数中的至少一个参数;将第二候选字串确定为对所述待聚类的各个文档进行聚类的聚类标签,并将待聚类的各个文档分别归类到与所述聚类标签对应的簇中。本发明还公开了一种聚类装置。

    一种优化聚类搜索结果的方法及其装置

    公开(公告)号:CN101739429A

    公开(公告)日:2010-06-16

    申请号:CN200810226637.7

    申请日:2008-11-18

    Abstract: 本发明公开了一种优化聚类搜索结果的方法及其装置,用以解决现有聚类搜索技术返回的搜索结果不能满足用户的个性化搜索需求的问题。具体技术方案包括:根据当前聚类搜索结果中的聚类类别,从预先保存的用户历史搜索信息中查找与所述聚类类别对应的历史权值;根据所述历史权值的查找结果以及所述聚类类别对应的当前权值,确定所述聚类类别对应的结果权值;根据所述结果权值,确定所述聚类类别返回给用户时的优先级。通过该技术方案返回的聚类搜索结果能够满足用户的个性化搜索需求,提高用户的体验度。

    一种爬虫抓取的方法及其装置

    公开(公告)号:CN101739427A

    公开(公告)日:2010-06-16

    申请号:CN200810226245.0

    申请日:2008-11-10

    Abstract: 本发明公开了一种爬虫抓取的方法及其装置,用于解决现有爬虫抓取技术时效性差的问题。主要技术方案包括:根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。通过该技术方案,能够根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该网页中信息的周期,对用户关注度高的网页可以缩短爬虫抓取网页信息的周期,从而保证这类网页中的信息具有很好的时效性,提高用户的使用感受。

Patent Agency Ranking