-
公开(公告)号:CN108256104A
公开(公告)日:2018-07-06
申请号:CN201810112942.7
申请日:2018-02-05
Applicant: 恒安嘉新(北京)科技股份公司
Abstract: 本发明公开了一种基于多维特征的互联网网站综合分类方法,该方法包括:采集互联网网站域名信息,获得互联网网站的域名信息列表;基于每个域名信息,采用爬虫获取域名对应的互联网网站标题信息,获取互联网网站的标题信息列表;基于每个域名信息,采用爬虫获取域名对应的互联网网站首页信息,获取互联网网站的首页信息列表;基于每个域名信息,采用爬虫获取域名对应的互联网网站页面链接信息,获取互联网网站的链接信息列表;综合获取的上述各信息列表,通过信息关联和机器学习,判别网站所属行业属性并进行对应分类。本发明解决了现有技术中无法对网站进行精确归类的问题。
-
公开(公告)号:CN108256104B
公开(公告)日:2020-05-26
申请号:CN201810112942.7
申请日:2018-02-05
Applicant: 恒安嘉新(北京)科技股份公司
IPC: G06F16/958 , G06F16/951 , G06F16/953 , G06F16/9535 , G06K9/62
Abstract: 本发明公开了一种基于多维特征的互联网网站综合分类方法,该方法包括:采集互联网网站域名信息,得到互联网网站的域名特征;基于每个域名信息,采用爬虫获取域名对应的互联网网站标题信息,得到互联网网站的标题信息列表;基于每个域名信息,采用爬虫获取域名对应的互联网网站首页信息,得到互联网网站的首页特征;基于每个域名信息,采用爬虫获取域名对应的互联网网站页面链接信息,得到互联网网站的外部链接特征;综合获取的上述各特征,通过信息关联和机器学习,判别网站所属行业属性并进行对应分类。本发明解决了现有技术中无法对网站进行精确归类的问题。
-