-
公开(公告)号:CN104794195B
公开(公告)日:2018-04-06
申请号:CN201510186319.2
申请日:2015-04-17
申请人: 南京大学
IPC分类号: G06F17/30
摘要: 本发明提供用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:1)数据集构造阶段:a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集;c处理类别不均衡的数据集,形成最终的训练集和预测集;挖掘阶段:a)获取步骤1‑c中处理生成的数据集;b)实施决策树算法发现潜在换机用户;c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效,具有实现简单、代价低等一系列的优点。
-
公开(公告)号:CN110134958B
公开(公告)日:2021-05-18
申请号:CN201910400416.5
申请日:2019-05-14
申请人: 南京大学
IPC分类号: G06F40/258 , G06F40/30 , G06F40/284
摘要: 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。
-
公开(公告)号:CN110134958A
公开(公告)日:2019-08-16
申请号:CN201910400416.5
申请日:2019-05-14
申请人: 南京大学
IPC分类号: G06F17/27
摘要: 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。
-
公开(公告)号:CN104794195A
公开(公告)日:2015-07-22
申请号:CN201510186319.2
申请日:2015-04-17
申请人: 南京大学
IPC分类号: G06F17/30
摘要: 本发明提供用于电信潜在换机用户发现的数据挖掘方法,包括如下步骤:1)数据集构造阶段:a收集用户的消费信息、用户历史换机信息、用户信息、终端信息;b数据预处理,同时产生数据集;c处理类别不均衡的数据集,形成最终的训练集和预测集;挖掘阶段:a)获取步骤1-c中处理生成的数据集;b)实施决策树算法发现潜在换机用户;c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效,具有实现简单、代价低等一系列的优点。
-
公开(公告)号:CN106055604B
公开(公告)日:2019-08-27
申请号:CN201610353388.2
申请日:2016-05-25
申请人: 南京大学
IPC分类号: G06F16/335 , G06F16/35
摘要: 一种基于词网络进行特征扩展的短文本主题模型挖掘方法,1)带权词网络构建步骤:2)短文本特征扩展步骤:3)主题挖掘步骤:将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样;采样后获得“中文分词后的文档‑主题”分布和“主题‑带权词网络中的节点是词语词语”分布;结束;计算邻接点加入社团前后的模块度增量,模块度是衡量社团好坏的标准,指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。
-
公开(公告)号:CN106055604A
公开(公告)日:2016-10-26
申请号:CN201610353388.2
申请日:2016-05-25
申请人: 南京大学
IPC分类号: G06F17/30
摘要: 一种基于词网络进行特征扩展的短文本主题模型挖掘方法,包括如下步骤:带权词网络构建步骤:文本预处理,对短文本语料库中的文本进行中文分词,并删除掉停用词;从中文分词后的文档中建立带权词网络,带权词网络中的节点是词语,节点之间的边是两个词语在同一篇文档中的共现关系,边的权重是在整个语料库中两个词语共现的次数;结束;短文本特征扩展步骤:将每条短文本的中文分词后包含的词语节点作为建立的带权词网络中的一个社团;主题挖掘步骤;将短文本特征扩一种基于词网络社团模块度的短文本特征稀疏性解决方法,从而解决LDA主题模型应用于短文本中效果不佳的问题。提升短文本主题模型的准确性。
-
-
-
-
-