-
公开(公告)号:CN110222180A
公开(公告)日:2019-09-10
申请号:CN201910481105.6
申请日:2019-06-04
申请人: 江南大学
摘要: 本发明公开了一种文本数据分类与信息挖掘方法,属于计算机技术领域。本发明通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维-稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,本发明在训练支持向量机之前,利用两层模糊分类初步得到其类别,无需提前获知训练数据的类别对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。
-
公开(公告)号:CN111753084A
公开(公告)日:2020-10-09
申请号:CN202010502518.0
申请日:2020-06-04
申请人: 江南大学
IPC分类号: G06F16/35 , G06F16/33 , G06F40/289
摘要: 本发明公开了一种短文本特征提取与分类方法,属于信息处理技术领域。通过对词频、集中度标准差、关联度高的关键词进行加权系数的奖励,再综合三者,得到关键词的特征指数;根据特征指数对初始关键词库进行优化,删除关键词库中对识别文本所属的类别所起作用较小的一些字词,也即减少了会影响文本分类准确性的关键词,使得后续分类更准确。通过将关键词映射成二维坐标平面上的点,将文本数据与关键词库的匹配,得到文本数据对应的点集,将其中的点顺序排列并连接,即得到文本的特征折线,通过特征折线的相似度反应文本的相似度,并对折线相似度算法进行了修正,利用邻居与当前文本的“相似度”来给每个邻居赋予不同的重要性,从而分类更准确。
-
公开(公告)号:CN111753084B
公开(公告)日:2024-04-30
申请号:CN202010502518.0
申请日:2020-06-04
申请人: 江南大学
IPC分类号: G06F16/35 , G06F16/33 , G06F40/289
摘要: 本发明公开了一种短文本特征提取与分类方法,属于信息处理技术领域。通过对词频、集中度标准差、关联度高的关键词进行加权系数的奖励,再综合三者,得到关键词的特征指数;根据特征指数对初始关键词库进行优化,删除关键词库中对识别文本所属的类别所起作用较小的一些字词,也即减少了会影响文本分类准确性的关键词,使得后续分类更准确。通过将关键词映射成二维坐标平面上的点,将文本数据与关键词库的匹配,得到文本数据对应的点集,将其中的点顺序排列并连接,即得到文本的特征折线,通过特征折线的相似度反应文本的相似度,并对折线相似度算法进行了修正,利用邻居与当前文本的“相似度”来给每个邻居赋予不同的重要性,从而分类更准确。
-
公开(公告)号:CN110222180B
公开(公告)日:2021-05-28
申请号:CN201910481105.6
申请日:2019-06-04
申请人: 江南大学
摘要: 本发明公开了一种文本数据分类与信息挖掘方法,属于计算机技术领域。本发明通过利用根据实际数据建立的关键词库,使得文本特征向量的维数大大降低、信息集中,克服了文本大数据处理过程中高维‑稀疏的问题,便于支持向量机算法的实现。同时定义了隶属度差异化系数来选取可靠个体,以增强文本分类的准确性。进一步的,本发明在训练支持向量机之前,利用两层模糊分类初步得到其类别,无需提前获知训练数据的类别对于12345热线文本数据,本申请还提出了针对不同类别利用群体智能的方法对分类后的问题文本给出解决方案,能充分调动不同领域的专业人士给予解答。
-
-
-
-