-
公开(公告)号:CN103020167B
公开(公告)日:2016-09-28
申请号:CN201210489136.4
申请日:2012-11-26
申请人: 南京大学
摘要: 本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N‑gram方法处理中文文本:使用N‑gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1‑正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N‑gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1‑正则化逻辑回归分类器可以很好地解决N‑gram带来的数据稀疏性问题,从而提高文本分类的精度。
-
公开(公告)号:CN103473484A
公开(公告)日:2013-12-25
申请号:CN201310464401.8
申请日:2013-09-30
申请人: 南京大学
IPC分类号: G06F19/24
摘要: 本发明提出了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:按照基因序列的特征,把特征空间内的特征分成不重叠的组。在组与组之间建立一个有向无环图。利用基于组和图稀疏化的分类模型为基因序列分类。本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。组与组之间建立有向无环图的方式,能够很好地避免上述两个问题,提高学习效率。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高分类的精度的同时,还加强了分类模型的可解释性。
-
公开(公告)号:CN103473380A
公开(公告)日:2013-12-25
申请号:CN201310462797.2
申请日:2013-09-30
申请人: 南京大学
IPC分类号: G06F17/30
摘要: 本发明提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。
-
公开(公告)号:CN103020167A
公开(公告)日:2013-04-03
申请号:CN201210489136.4
申请日:2012-11-26
申请人: 南京大学
摘要: 本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1-正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N-gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题,从而提高文本分类的精度。
-
公开(公告)号:CN103473484B
公开(公告)日:2016-05-11
申请号:CN201310464401.8
申请日:2013-09-30
申请人: 南京大学
IPC分类号: G06F19/24
摘要: 本发明提出了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:按照基因序列的特征,把特征空间内的特征分成不重叠的组。在组与组之间建立一个有向无环图。利用基于组和图稀疏化的分类模型为基因序列分类。本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。组与组之间建立有向无环图的方式,能够很好地避免上述两个问题,提高学习效率。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高分类的精度的同时,还加强了分类模型的可解释性。
-
公开(公告)号:CN103473380B
公开(公告)日:2016-04-13
申请号:CN201310462797.2
申请日:2013-09-30
申请人: 南京大学
IPC分类号: G06F17/30
摘要: 本发明提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。
-
-
-
-
-