一种基于图核的文本数据分类方法

    公开(公告)号:CN116340508A

    公开(公告)日:2023-06-27

    申请号:CN202310069841.7

    申请日:2023-02-07

    Inventor: 朱坛 杨帆

    Abstract: 本发明公开了一种基于图核的文本数据分类方法,用于在保证高分类准确率的同时提升计算效率并降低内存消耗,该发明主要包括获取文档的文本信息和结构信息,将文档转换成单词图,使用图核方法对两个文档进行相似度度量,获得文档集的相似度矩阵;将相似度矩阵作为输入数据传入SVM进行模型训练,通过SVM模型对未知文档进行分类。该方法的目的是在保证用户更好的使用体验的前提下,为用户提供一种高准确率的文本分类方法,方便用户获取自己需要的文档以及屏蔽自己不需要的文档。

Patent Agency Ranking