-
公开(公告)号:CN108062331B
公开(公告)日:2021-02-12
申请号:CN201610983203.6
申请日:2016-11-08
Applicant: 南京理工大学
Abstract: 本发明涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法,该方法包括:获取初始文本;提取文本的特征词,保存文本集的特征词表以及文本数量;计算文本中各特征词的词频,将文本集分为训练集和验证集两个部分;通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;如果有新文本,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。本发明不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习,而且具有新特征处理和领域自适应能力。
-
公开(公告)号:CN109815383A
公开(公告)日:2019-05-28
申请号:CN201811651587.7
申请日:2018-12-31
Applicant: 南京理工大学
IPC: G06F16/951 , G06F16/35 , G06F16/36 , G06F17/27
Abstract: 本发明公开了一种基于LSTM的微博谣言检测及其资源库构建方法,包括:步骤1、利用爬虫技术对谣言数据进行爬取;步骤2、利用爬虫技术对非谣言数据进行爬取;步骤3、对爬取到的数据进行整合存储,构建资源库;步骤4、对微博及其评论进行数据标注;步骤5、对获取到的数据进行预处理,包括分词、去停用词、特征抽取;步骤6、构建基于LSTM模型,将上下文序列及目标文本送入模型得到分类结果。本发明提出的方法覆盖了微博评论、微博用户信息在内的多种数据,数据种类更多样化且能较好的降低微博热度对数据采集的影响。基于序列标注的LSTM模型和现有对目标文本进行分类的技术相比,能够充分利用上下文信息以及评论的情感倾向,从而得到更好的微博谣言检测结果。
-
公开(公告)号:CN108694165A
公开(公告)日:2018-10-23
申请号:CN201710229726.6
申请日:2017-04-10
Applicant: 南京理工大学
CPC classification number: G06F17/2785
Abstract: 本发明公开了一种面向产品评论的跨领域对偶情感分析方法,该方法包括:对于给定目标领域的产品评论数据,获取源领域标注语料资源,随后对源领域和目标领域的样本数据预处理;借助英文本体库为语料中的特征词构建具有一对多关系的带权反义词典;结合改进的知识规则和带权反义词典为源领域和目标领域的样本构造翻转数据集,扩充语料;采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示,并对翻转样本中引入的带权情感词进行加权表示;采用对偶学习方法训练基分类器,并使用基于置信度的集成策略进行基分类器集成。本发明能较好地解决情感分析任务中产品评论等短文本的数据稀疏问题、极性转移问题,并在领域适应问题上表现良好。
-
公开(公告)号:CN108062331A
公开(公告)日:2018-05-22
申请号:CN201610983203.6
申请日:2016-11-08
Applicant: 南京理工大学
CPC classification number: G06F16/35 , G06K9/6278
Abstract: 本发明涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法,该方法包括:获取初始文本;提取文本的特征词,保存文本集的特征词表以及文本数量;计算文本中各特征词的词频,将文本集分为训练集和验证集两个部分;通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;如果有新文本,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。本发明不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习,而且具有新特征处理和领域自适应能力。
-
公开(公告)号:CN111382565A
公开(公告)日:2020-07-07
申请号:CN202010159301.4
申请日:2020-03-09
Applicant: 南京理工大学
IPC: G06F40/216 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于多标签的情绪-原因对抽取方法及系统,采用端到端的方式直接抽取情绪-原因对,该方法主要包括:对新闻数据集进行预处理;构建基于注意力机制的层次双向LSTM模型,建模“词-子句-文档”的层次关系,根据多标签的定义特点,本发明设计了两个辅助任务:情绪预测和原因预测;底层双向LSTM用来捕捉词之间的序列关系,注意力机制将词的上下文信息通过加权和得到子句表示,上层双向LSTM用来获得子句间的序列关系,最终获得多标签分类结果。本发明解决了现有技术中每一步都可能存在信息丢失的问题,提升情绪-原因对抽取的准确性。
-
公开(公告)号:CN107862343A
公开(公告)日:2018-03-30
申请号:CN201711217412.0
申请日:2017-11-28
Applicant: 南京理工大学
Abstract: 本发明公开了一种基于规则和神经网络的商品评论属性级情感分类方法,首先获取评论数据,对评论文本进行中文分词及停用词过滤;然后利用规则模板筛选出商品属性集,构造 样本集,对每一条评论的属性标注情感,构造 训练集;再构建基于双边注意力的神经网络情感分类模型,使用训练集对模型进行训练;最后对测试数据进行中文分词及停用词过滤,筛选出商品属性集,构造 测试集,并使用情感分类模型进行情感分类。本发明能更好地利用评论中属性的上下文信息,极大地提高了预测属性情感类别的准确性。
-
公开(公告)号:CN111382565B
公开(公告)日:2023-08-11
申请号:CN202010159301.4
申请日:2020-03-09
Applicant: 南京理工大学
IPC: G06F16/35 , G06F40/30 , G06F40/216 , G06N3/0442 , G06N3/045 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种基于多标签的情绪‑原因对抽取方法及系统,采用端到端的方式直接抽取情绪‑原因对,该方法主要包括:对新闻数据集进行预处理;构建基于注意力机制的层次双向LSTM模型,建模“词‑子句‑文档”的层次关系,根据多标签的定义特点,本发明设计了两个辅助任务:情绪预测和原因预测;底层双向LSTM用来捕捉词之间的序列关系,注意力机制将词的上下文信息通过加权和得到子句表示,上层双向LSTM用来获得子句间的序列关系,最终获得多标签分类结果。本发明解决了现有技术中每一步都可能存在信息丢失的问题,提升情绪‑原因对抽取的准确性。
-
公开(公告)号:CN111460144A
公开(公告)日:2020-07-28
申请号:CN202010172672.6
申请日:2020-03-12
Applicant: 南京理工大学
IPC: G06F16/35 , G06F16/33 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于时序切分与融合的谣言早期检测算法,包括以下步骤:对微博谣言传播的时间线按发展规律切分为多个时间窗;预处理每一个时间窗内的微博或评论文本;为每个时间窗内的数据独立训练编码器;沿时间线将每个时间窗所得的编码与上一个时间窗的编码进行拼接,形成增量式的训练网络;在每个时间窗下进行独立地分类,即可方便地在不同时间点对谣言事件进行真实性检测。本发明将谣言检测任务从一体化的文本分类任务转化为基于时序的增量式分类任务,并有效解决了谣言早期检测精度低的问题。
-
公开(公告)号:CN109800305A
公开(公告)日:2019-05-24
申请号:CN201811651568.4
申请日:2018-12-31
Applicant: 南京理工大学
IPC: G06F16/35 , G06F16/955
Abstract: 本发明公开了一种基于自然标注的微博情绪分类方法,包括:步骤1、对微博数据进行预处理,包括分词、去停用词、表情微博抽取;步骤2、对微博文本进行基于种子词和表情符号的七类情绪标注;步骤3、利用步骤2构建的自然标注微博语料库,来构建一个朴素贝叶斯模型,将情绪标注以及微博文本送入模型,得到分类结果。本发明通过远程监督的方式构建了一个83303条的自然标注的微博情绪语料库,和现有的人工标注构建微博情绪语料库的方式相比能得到更多训练数据集并节省大量的人工耗费,更好的对微博情绪文本进行分类。
-
公开(公告)号:CN109064347A
公开(公告)日:2018-12-21
申请号:CN201710435528.5
申请日:2017-06-11
Applicant: 南京理工大学
CPC classification number: G06Q50/01 , H04L41/145
Abstract: 本发明公开了一种基于多智能体的信息传播与舆情演化的仿真方法,包括以下步骤:选取无标度网络作为仿真的媒介;构建网民个体的传播意愿负指数模型;定义网民的属性以及网民群体之间的交互规则,基于交互规则构建网民的连续观点演化模型;信息传播与网民舆情观点演化过程相结合,对信息的传播、观点的演化进行仿真,模型运行到预设的时间步停止。本发明通过引入信息的传播、网民的交互规则以及多样的属性定义,能更好的反应出真实社会中舆情与信息一起传播的规律,体现网民之间的差异性,发现信息传播与舆情演化的规律。
-
-
-
-
-
-
-
-
-