基于去冗余互信息特征选择的文本分类系统及方法

    公开(公告)号:CN112364629A

    公开(公告)日:2021-02-12

    申请号:CN202011363953.6

    申请日:2020-11-27

    Applicant: 苏州大学

    Abstract: 本发明涉及一种基于去冗余互信息特征选择的文本分类系统及方法,包括:数据预处理模块,对输入的多条文本数据进行预处理,得到多个特征的文本特征矩阵;特征选择模块,对目标特征子集和待选择的特征集合进行初始化,设置需要选择的特征数,对每一个特征,计算其评分,选取得分最大的特征,添加到目标特征子集,从所述待选择的特征集合中删除得分最大的特征,得到更新后的目标特征子集;分类模块,根据所述更新后的目标特征子集,生成新的训练集和测试集,并根据所述更新后的目标特征子集生成新的训练集及测试集,并进行分类,得到分类准确度。本发明更加有效的去除冗余。

Patent Agency Ranking