一种爬虫抓取的方法及其装置

    公开(公告)号:CN101739427A

    公开(公告)日:2010-06-16

    申请号:CN200810226245.0

    申请日:2008-11-10

    Abstract: 本发明公开了一种爬虫抓取的方法及其装置,用于解决现有爬虫抓取技术时效性差的问题。主要技术方案包括:根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。通过该技术方案,能够根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该网页中信息的周期,对用户关注度高的网页可以缩短爬虫抓取网页信息的周期,从而保证这类网页中的信息具有很好的时效性,提高用户的使用感受。

    一种数据搜索方法及系统
    13.
    发明授权

    公开(公告)号:CN102411584B

    公开(公告)日:2014-09-17

    申请号:CN201010291290.1

    申请日:2010-09-25

    Abstract: 本发明公开了一种数据搜索方法及系统,包括:采集网页数据和专业数据;并根据采集的网页数据和专业数据分别建立网页数据记录库和专业数据记录库,其中,网页数据记录库中包括若干个网页数据记录,专业数据记录库中包括若干个专业数据记录;并分别建立关键字与网页数据记录的第一索引和关键字与专业数据记录的第二索引;并在接收到用户的第一搜索请求后,按照第一搜索请求中携带的检索关键字查询建立的第一索引和第二索引,获得与检索关键字对应的各网页数据记录和各专业数据记录以及将获得的各网页数据记录和各专业数据记录作为第一搜索结果返回给用户。采用本发明实施例提供的方案,能够为用户提供更准确的信息搜索。

    网页信息处理的方法及装置

    公开(公告)号:CN103678378A

    公开(公告)日:2014-03-26

    申请号:CN201210345265.6

    申请日:2012-09-17

    Inventor: 胡珉 钱岭 孙少陵

    CPC classification number: G06F17/30902

    Abstract: 本发明提供一种网页信息处理方法及装置,涉及互联网技术领域。方法包括:获取属于同一类型网站中的多个网页;分别对所述多个网页进行分块处理,获得第一类网页区块以及多个第二类网页区块;其中,所述第一类网页区块为属于同一个网页并且为所述多个网页相同的网页结构元素;所述第二类网页区块包括:所述多个网页中不相同的网页正文部分分别对应的网页结构元素;存储所述第一类网页区块和各个网页的正文部分分别对应的所述第二类网页区块。采用本发明的方案,可以加快网页显示速度,减小网络系统负荷,节约网络资源消耗。

    新闻聚合方法及装置
    15.
    发明公开

    公开(公告)号:CN103164427A

    公开(公告)日:2013-06-19

    申请号:CN201110414469.6

    申请日:2011-12-13

    Abstract: 本发明公开了一种新闻聚合方法及装置,该方法包括步骤:确定出热点新闻;当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;对选择出的各新闻进行文本聚合处理,得到各新闻组;若当前规定时间点为第一个规定时间点,则将得到的各新闻组确认为该热点新闻的新闻事件,否则将得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻的新闻事件。本发明技术方案解决了现有技术进行新闻聚合时无法将相关新闻聚合在一起进行展现,因此新闻传播性以及用户黏度不高的问题。

    一种检索信息的缓存方法和搜索引擎系统

    公开(公告)号:CN102541924A

    公开(公告)日:2012-07-04

    申请号:CN201010614750.X

    申请日:2010-12-21

    Abstract: 本发明实施例公开了一种检索信息的缓存方法和搜索引擎系统,通过应用本发明实施例所提出的技术方案,可以对检索信息进行分级的缓存,除了缓存最终的检索请求对应的结果页面外,还缓存一些占用空间比较小的中间检索结果信息,从而,使缓存的检索提问总量得到了大幅提高,加快检索速度,改善了用户体验。

    新闻聚合方法及装置
    17.
    发明授权

    公开(公告)号:CN103164427B

    公开(公告)日:2016-03-02

    申请号:CN201110414469.6

    申请日:2011-12-13

    Abstract: 本发明公开了一种新闻聚合方法及装置,该方法包括步骤:确定出热点新闻;当到达规定时间点时,根据热点新闻的新闻关键词,在发布时间位于当前规定时间点对应的时间段内的新闻中,选择出与该热点新闻相关的各新闻;对选择出的各新闻进行文本聚合处理,得到各新闻组;若当前规定时间点为第一个规定时间点,则将得到的各新闻组确认为该热点新闻的新闻事件,否则将得到的各新闻组和该热点新闻在上一规定时间点的新闻事件中的各新闻组进行合并处理,将合并处理后的各新闻组确认为该热点新闻的新闻事件。本发明技术方案解决了现有技术进行新闻聚合时无法将相关新闻聚合在一起进行展现,因此新闻传播性以及用户黏度不高的问题。

    一种动态网页的采集方法及装置

    公开(公告)号:CN101996196B

    公开(公告)日:2012-09-26

    申请号:CN200910091691.X

    申请日:2009-08-28

    Inventor: 孙宏伟 胡珉

    Abstract: 本发明公开了一种动态网页的采集方法及装置,其中,该方法包括:在客户端侧预先设置模拟用户行为功能,客户端侧和提供动态网页信息的服务器建立链接;客户端侧通过预先设置的模拟用户行为功能下载动态网页信息;客户端侧通过设置的模拟用户行为功能对下载的动态网页信息中的表项解析、填写并发送给服务器;客户端侧从该服务器中得到的链接地址采集动态网页。本发明提供的方法及装置能够采集动态网页。

    一种优化聚类搜索结果的方法及其装置

    公开(公告)号:CN101739429B

    公开(公告)日:2012-08-22

    申请号:CN200810226637.7

    申请日:2008-11-18

    Abstract: 本发明公开了一种优化聚类搜索结果的方法及其装置,用以解决现有聚类搜索技术返回的搜索结果不能满足用户的个性化搜索需求的问题。具体技术方案包括:根据当前聚类搜索结果中的聚类类别,从预先保存的用户历史搜索信息中查找与所述聚类类别对应的历史权值;根据所述历史权值的查找结果以及所述聚类类别对应的当前权值,确定所述聚类类别对应的结果权值;根据所述结果权值,确定所述聚类类别返回给用户时的优先级。通过该技术方案返回的聚类搜索结果能够满足用户的个性化搜索需求,提高用户的体验度。

    一种爬虫抓取的方法及其装置

    公开(公告)号:CN101739427B

    公开(公告)日:2012-07-04

    申请号:CN200810226245.0

    申请日:2008-11-10

    Abstract: 本发明公开了一种爬虫抓取的方法及其装置,用于解决现有爬虫抓取技术时效性差的问题。主要技术方案包括:根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。通过该技术方案,能够根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该网页中信息的周期,对用户关注度高的网页可以缩短爬虫抓取网页信息的周期,从而保证这类网页中的信息具有很好的时效性,提高用户的使用感受。

Patent Agency Ranking