-
公开(公告)号:CN103886078B
公开(公告)日:2017-05-10
申请号:CN201410114600.0
申请日:2014-03-25
Applicant: 烟台中科网络技术研究所
IPC: G06F17/30
Abstract: 本发明涉及一种通用的新闻评论采集方法及装置,包括以下步骤:获取用户输入的新闻链接地址及用户配置的采集配置文件;读取采集配置文件中的模板地址;根据新闻链接地址分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中的配置信息;逐条根据配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数;逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。本发明能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性。
-
公开(公告)号:CN103886078A
公开(公告)日:2014-06-25
申请号:CN201410114600.0
申请日:2014-03-25
Applicant: 烟台中科网络技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30896
Abstract: 本发明涉及一种通用的新闻评论采集方法及装置,包括以下步骤:获取用户输入的新闻链接地址及用户配置的采集配置文件;读取采集配置文件中的模板地址;根据新闻链接地址分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中的配置信息;逐条根据配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数;逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。本发明能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性。
-