基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置

    公开(公告)号:CN104750844B

    公开(公告)日:2016-03-02

    申请号:CN201510165395.5

    申请日:2015-04-09

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。

    基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置

    公开(公告)号:CN104750844A

    公开(公告)日:2015-07-01

    申请号:CN201510165395.5

    申请日:2015-04-09

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于TF-IGM的文本特征向量生成方法和装置及文本分类方法和装置,通过建立反重力矩(IGM)模型来计算特征词在不同类别文本中分布的集中度,并在此基础上计算特征词的权重。计算所得权重更能逼真地反映特征词在文本分类中的重要性,提高了文本分类器的性能。基于TF-IGM方法的文本特征向量生成装置具备多个选项,可根据文本分类性能测试结果进行优化调节,适应具有不同特性的文本数据集。在公共的英文语料库和中文语料库上的实验表明,TF-IGM方法比TF-IDF、TF-RF等现有方法更加优越,尤其适合两类以上的多类别文本分类应用。

    一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置

    公开(公告)号:CN105224695B

    公开(公告)日:2018-04-20

    申请号:CN201510770947.5

    申请日:2015-11-12

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置,根据特征词在文本文档内的词频和在不同文本类别上分布的信息熵来计算文档内各特征词的权重;同时可根据文本集各类别规模的非平衡性采用不同方式来计算特征词的类间分布熵,另外根据各特征词在文本集中的分布特点按需引入了反文档频率,而且适当缩减了局部词频因子,使得文档内各特征词的权重分配更合理,所生成的文档特征向量更充分地反映了不同类别文本的特征差异。所公开的文本特征量化装置和文本分类装置具备多个选项或参数,通过调节可获得最优的文本分类效果。所述文本特征量化方法不仅提高了文本分类的准确率,而且在不同文本集上的性能比较稳定。

    一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置

    公开(公告)号:CN105224695A

    公开(公告)日:2016-01-06

    申请号:CN201510770947.5

    申请日:2015-11-12

    Applicant: 中南大学

    Abstract: 本发明公开了一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置,根据特征词在文本文档内的词频和在不同文本类别上分布的信息熵来计算文档内各特征词的权重;同时可根据文本集各类别规模的非平衡性采用不同方式来计算特征词的类间分布熵,另外根据各特征词在文本集中的分布特点按需引入了反文档频率,而且适当缩减了局部词频因子,使得文档内各特征词的权重分配更合理,所生成的文档特征向量更充分地反映了不同类别文本的特征差异。所公开的文本特征量化装置和文本分类装置具备多个选项或参数,通过调节可获得最优的文本分类效果。所述文本特征量化方法不仅提高了文本分类的准确率,而且在不同文本集上的性能比较稳定。

Patent Agency Ranking