-
公开(公告)号:CN105389379A
公开(公告)日:2016-03-09
申请号:CN201510809492.3
申请日:2015-11-20
Applicant: 重庆邮电大学
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明提出一种基于文本分布式特征表示的垃圾稿件分类方法,该方法采用基于词典和统计策略的中文分词算法对稿件文本进行分词处理,利用word2vec中基于Negative-Sampling算法的Skip-Gram模型,选取线性核的支持向量机,对稿件的文本向量进行训练,得到SVM的稿件分类模型,明显提高了稿件类别判别的正确率,使稿件类别判别的精确度得到较大改善与提高。
-
公开(公告)号:CN105389379B
公开(公告)日:2018-12-04
申请号:CN201510809492.3
申请日:2015-11-20
Applicant: 重庆邮电大学
IPC: G06F17/30
Abstract: 本发明提出一种基于文本分布式特征表示的垃圾稿件分类方法,该方法采用基于词典和统计策略的中文分词算法对稿件文本进行分词处理,利用word2vec中基于Negative‑Sampling算法的Skip‑Gram模型,选取线性核的支持向量机,对稿件的文本向量进行训练,得到SVM的稿件分类模型,明显提高了稿件类别判别的正确率,使稿件类别判别的精确度得到较大改善与提高。
-