-
公开(公告)号:CN110909158B
公开(公告)日:2022-10-18
申请号:CN201910605245.X
申请日:2019-07-05
Applicant: 重庆信科设计有限公司 , 重庆市质量和标准化研究院
Abstract: 本发明请求保护一种基于改进萤火虫算法和K近邻的文本分类方法,结合信息增益和萤火虫算法构造了一个文本特征选择模型。首先利用信息增益对所有特征排序,然后在排序靠前的特征集合上利用改进萤火虫算法的较强寻优能力找出更具代表性的特征子集。对萤火虫算法中的步长因子α做出调整,既保证了算法的全局搜索能力,又保证了局部搜索能力。并引入新的适应度函数,在提高特征子集的精度上适当减少了特征的维度。最后将模型用于文本特征选择,将得到的特征子集用于KNN文本分类。本发明能够较好地改善萤火虫算法在搜索最优文本特征子集的过程中容易早熟陷入局部最优、收敛速度慢等缺陷,从而得到更精确的子集,提升文本分类准确率。
-
公开(公告)号:CN110909158A
公开(公告)日:2020-03-24
申请号:CN201910605245.X
申请日:2019-07-05
Applicant: 重庆信科设计有限公司 , 重庆市质量和标准化研究院
Abstract: 本发明请求保护一种基于改进萤火虫算法和K近邻的文本分类方法,结合信息增益和萤火虫算法构造了一个文本特征选择模型。首先利用信息增益对所有特征排序,然后在排序靠前的特征集合上利用改进萤火虫算法的较强寻优能力找出更具代表性的特征子集。对萤火虫算法中的步长因子α做出调整,既保证了算法的全局搜索能力,又保证了局部搜索能力。并引入新的适应度函数,在提高特征子集的精度上适当减少了特征的维度。最后将模型用于文本特征选择,将得到的特征子集用于KNN文本分类。本发明能够较好地改善萤火虫算法在搜索最优文本特征子集的过程中容易早熟陷入局部最优、收敛速度慢等缺陷,从而得到更精确的子集,提升文本分类准确率。
-