-
公开(公告)号:CN110069630B
公开(公告)日:2023-07-21
申请号:CN201910212325.9
申请日:2019-03-20
Applicant: 重庆信科设计有限公司 , 重庆市质量和标准化研究院
IPC: G06F16/35 , G06F18/2413 , G06F18/214 , G06F40/284
Abstract: 本发明请求保护一种改进的互信息特征选择方法。包括步骤:首先,对文本数据分为测试集和训练集并分别做分词、去停用词处理,在特征选择时分别引入类内特征频度和特征词覆盖率,并结合特征词的词性系数,与改进的互信息模型相结合,构造出新的特征权重评估函数;其次,利用改进的互信息模型进行特征选择并设置最大最小互信息值,筛选出满足条件的特征词集合并使用空间向量模型对特征词集合向量化;最后,使用K近邻(KNN)分类算法对特征词集合进行分类,使用查准率,查全率和F1值评估分类结果。本发明减少了数据处理的时间消耗,提升了分类的准确率,通过对引入的参数调节来适应多样的分类模型,实现文本分类系统的最优设计。
-
公开(公告)号:CN110069630A
公开(公告)日:2019-07-30
申请号:CN201910212325.9
申请日:2019-03-20
Applicant: 重庆信科设计有限公司 , 重庆市质量和标准化研究院
Abstract: 本发明请求保护一种改进的互信息特征选择方法。包括步骤:首先,对文本数据分为测试集和训练集并分别做分词、去停用词处理,在特征选择时分别引入类内特征频度和特征词覆盖率,并结合特征词的词性系数,与改进的互信息模型相结合,构造出新的特征权重评估函数;其次,利用改进的互信息模型进行特征选择并设置最大最小互信息值,筛选出满足条件的特征词集合并使用空间向量模型对特征词集合向量化;最后,使用K近邻(KNN)分类算法对特征词集合进行分类,使用查准率,查全率和F1值评估分类结果。本发明减少了数据处理的时间消耗,提升了分类的准确率,通过对引入的参数调节来适应多样的分类模型,实现文本分类系统的最优设计。
-