-
公开(公告)号:CN106055604B
公开(公告)日:2019-08-27
申请号:CN201610353388.2
申请日:2016-05-25
Applicant: 南京大学
IPC: G06F16/335 , G06F16/35
Abstract: 一种基于词网络进行特征扩展的短文本主题模型挖掘方法,1)带权词网络构建步骤:2)短文本特征扩展步骤:3)主题挖掘步骤:将步骤2短文本特征扩展后的语料库作为训练集进行LDA吉布斯采样;采样后获得“中文分词后的文档‑主题”分布和“主题‑带权词网络中的节点是词语词语”分布;结束;计算邻接点加入社团前后的模块度增量,模块度是衡量社团好坏的标准,指网络中连接社团内部节点的边所占的比例与另外一个随机网络中连接社团内部节点的边所占比例的期望值相减得到的差值。
-
公开(公告)号:CN108763361A
公开(公告)日:2018-11-06
申请号:CN201810470714.7
申请日:2018-05-17
Applicant: 南京大学
CPC classification number: G06F17/218
Abstract: 本发明公开了一种基于主题模型的多标签分类框架方法,包括如下步骤:1)标签文档生成阶段:a提取训练集标签集合;b生成新文档;2)获取标签文档‑主题分布阶段:a更新模型参数;b训练主题模型;3)标签文档‑主题分布离散化阶段:a获取主题概率最值;b离散化主题;4)预测测试实例主题阶段:a生成主题为标签的数据集;b预测测试实例主题;5)预测测试实例标签阶段:a组合属性主题;b预测测试实例标签。本发明能以较少的复杂度考虑了标签之间的关系,有效提高多标签分类预测效果。
-
公开(公告)号:CN106055604A
公开(公告)日:2016-10-26
申请号:CN201610353388.2
申请日:2016-05-25
Applicant: 南京大学
IPC: G06F17/30
Abstract: 一种基于词网络进行特征扩展的短文本主题模型挖掘方法,包括如下步骤:带权词网络构建步骤:文本预处理,对短文本语料库中的文本进行中文分词,并删除掉停用词;从中文分词后的文档中建立带权词网络,带权词网络中的节点是词语,节点之间的边是两个词语在同一篇文档中的共现关系,边的权重是在整个语料库中两个词语共现的次数;结束;短文本特征扩展步骤:将每条短文本的中文分词后包含的词语节点作为建立的带权词网络中的一个社团;主题挖掘步骤;将短文本特征扩一种基于词网络社团模块度的短文本特征稀疏性解决方法,从而解决LDA主题模型应用于短文本中效果不佳的问题。提升短文本主题模型的准确性。
-
公开(公告)号:CN108710611A
公开(公告)日:2018-10-26
申请号:CN201810473370.5
申请日:2018-05-17
Applicant: 南京大学
CPC classification number: G06F17/2785 , G06F17/2775
Abstract: 本发明提出一种基于词网络和词向量的短文本主题模型生成方法,包括如下步骤:1)学习语义信息:a、分词并去除停止词;b、根据预处理得到的短文本数据学习词向量;c、计算词语之间的语义相似度。2)对每个词语构建伪文档:a、基于语义相似度获得词语共现列表,构建词网络;b、计算词语向量的算术关系获得潜在词语列表;c、判断伪文档长度并决定是否加入相似词语。3)对每个伪文档进行LDA主题建模,得到原始文档的主题、词语频率分布。本发明通过引入语义信息构建伪文档,并对伪文档进行主题建模,从而解决了短文本数据的稀疏和不平衡问题,使在短文本上进行主题发现、文本分类和文本聚类等任务的性能得到提升。
-
公开(公告)号:CN108710611B
公开(公告)日:2021-08-03
申请号:CN201810473370.5
申请日:2018-05-17
Applicant: 南京大学
IPC: G06F40/30 , G06F40/289 , G06F16/30
Abstract: 本发明提出一种基于词网络和词向量的短文本主题模型生成方法,包括如下步骤:1)学习语义信息:a、分词并去除停止词;b、根据预处理得到的短文本数据学习词向量;c、计算词语之间的语义相似度。2)对每个词语构建伪文档:a、基于语义相似度获得词语共现列表,构建词网络;b、计算词语向量的算术关系获得潜在词语列表;c、判断伪文档长度并决定是否加入相似词语。3)对每个伪文档进行LDA主题建模,得到原始文档的主题、词语频率分布。本发明通过引入语义信息构建伪文档,并对伪文档进行主题建模,从而解决了短文本数据的稀疏和不平衡问题,使在短文本上进行主题发现、文本分类和文本聚类等任务的性能得到提升。
-
公开(公告)号:CN110134958B
公开(公告)日:2021-05-18
申请号:CN201910400416.5
申请日:2019-05-14
Applicant: 南京大学
IPC: G06F40/258 , G06F40/30 , G06F40/284
Abstract: 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。
-
公开(公告)号:CN108710672B
公开(公告)日:2020-04-14
申请号:CN201810472102.1
申请日:2018-05-17
Applicant: 南京大学
IPC: G06F16/35 , G06F16/9535 , G06F16/951 , G06K9/62
Abstract: 一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。
-
公开(公告)号:CN110134958A
公开(公告)日:2019-08-16
申请号:CN201910400416.5
申请日:2019-05-14
Applicant: 南京大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。
-
公开(公告)号:CN108710672A
公开(公告)日:2018-10-26
申请号:CN201810472102.1
申请日:2018-05-17
Applicant: 南京大学
Abstract: 一种基于增量贝叶斯算法的主题爬虫方法,使用增量学习思想训练贝叶斯分类器的步骤,基于增量贝叶斯算法进行在线主题爬虫的步骤:输入初始训练集和增量训练集;对初始训练集和增量训练集进行分词等预处理;根据初始训练集和朴素贝叶斯原理训练出初始分类器,针对增量训练集中的数据,使用初始分类器对样本进行分类,根据分类结果进行分类模型的更新;初始化优先级队列、已访问链接集合、增量贝叶斯分类器,并将初始网页链接加入到优先级队列中;根据网页链接是否含有主题关键词,如果含有,则对增量贝叶斯分类模型进行更新。每次选择优先级队列中优先级最高的网页进行网页下载,重复上述步骤直到满足条件。
-
-
-
-
-
-
-
-