基于LDA和word2vec算法的新闻文本分类方法

    公开(公告)号:CN107609121B

    公开(公告)日:2021-03-30

    申请号:CN201710828232.X

    申请日:2017-09-14

    Applicant: 暨南大学

    Abstract: 本发明公开了一种基于LDA和word2vec算法的新闻文本分类方法,包括:通过word2vec获得语料库词向量;将训练样本集中的文本分词、去除停用词;通过LDA模型获得训练样本集的类别核心词;构造训练样本集的类别中心向量;对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量;对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,对待分类文本进行分类;用KNN算法对待分类文本进行二次分类。本发明的有益效果:将待分类文本的特征向量与类中心向量进行相似度计算进行初次分类,大大降低了计算量,当初次分类不足以明确划分类别时,用KNN算法进行二次分类,在新样本集中等量抽取类别样本,消除样本分布不均对分类准确率造成的影响。

Patent Agency Ranking