一种计算机中文文本分类方法

发明授权

CN103020167B 一种计算机中文文本分类方法有权

请登陆查看更多内容

专利标题： 一种计算机中文文本分类方法
申请号： CN201210489136.4

申请日： 2012-11-26
公开(公告)号： CN103020167B

公开(公告)日： 2016-09-28
发明人: 戴新宇 , 付强 , 陈家骏 , 黄书剑 , 张建兵
申请人： 南京大学
申请人地址： 江苏省南京市栖霞区仙林大道163号南京大学
专利权人： 南京大学
当前专利权人： 南京大学
当前专利权人地址： 江苏省南京市栖霞区仙林大道163号南京大学
代理机构： 江苏圣典律师事务所
代理商 胡建华
主分类号： G06F17/30
IPC分类号： G06F17/30 ; G06F17/27

摘要：

本发明提出了一种计算机中文文本分类方法，包括以下步骤：使用N‑gram方法处理中文文本：使用N‑gram的方法把中文文本的表示为一个由一组特征组成的特征向量；使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重；利用L1‑正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高，能够避免分词对分类精度产生的不良影响。通过使用N‑gram的形式来表达文本，可以很好地避免上述的两方面问题。同时L1‑正则化逻辑回归分类器可以很好地解决N‑gram带来的数据稀疏性问题，从而提高文本分类的精度。

公开/授权文献

CN103020167A 一种计算机中文文本分类方法公开/授权日：2013-04-03

信息查询

中国专利公布公告 Global Dossier Espacenet