一种面向移动互联网自适应增量的内容聚合方法及系统

    公开(公告)号:CN106446160A

    公开(公告)日:2017-02-22

    申请号:CN201610847428.9

    申请日:2016-09-26

    CPC classification number: G06F17/30864

    Abstract: 本发明公开了一种面向移动互联网自适应增量的内容聚合方法及系统,对m个目标源网站预处理,记录m个目标源网站的导航页面数据,建立关于长度和数量的二维数学模型;爬取m个目标源网站,向下爬取每个目标源网站所存在的多个页面,计算每个页面的二维正态分布置信概率;并将按照降幂次序排列,及将每个页面下对应url地址的目标页面进入url地址池;爬取url地址池中位于顶部的url地址所对应目标页面,将所有url地址并进入url地址池,向量化计算相似度;判断是否异常;对url地址池中所有目标页面分析,爬取所需信息及进入信息所在页面;通过贝叶斯选择筛选并更新二维分布权重。本发明大大提高信息获取效率,减小了服务器负载量,保证了获得信息的完整性。

Patent Agency Ranking