一种基于支撑向量机的Web划分方法

    公开(公告)号:CN102254040A

    公开(公告)日:2011-11-23

    申请号:CN201110232192.5

    申请日:2011-08-15

    Abstract: 本发明提供了一种基于支撑向量机的Web划分方法,本发明的方法:将所有Web站点划分为N组;取K=1,2,3…N,对每个K的值,选取其中第1~K-1,K+1~N组Web站点样本,进行对LibSvm训练初始化;进行LibSVM训练;存储训练好的SVM模型;选取第K组Web站点样本,进行Web划分测试;Web划分测试结果保存。本发明SVM泛化能力强,在处理噪音较大数据时能够很好容错和分类。通过网络坐标系统建立的坐标准确率在80%左右,SVM可以解决非线性分类问题,SVM分类个数固定,避免网站没有爬虫爬取的极端情况,用分类算法克服了聚类算法中划分集合个数的不确定性。

Patent Agency Ranking