-
-
公开(公告)号:CN107832307A
公开(公告)日:2018-03-23
申请号:CN201711218709.9
申请日:2017-11-28
Applicant: 南京理工大学
IPC: G06F17/27
Abstract: 本发明公开了一种基于无向图与单层神经网络的中文分词方法,首先根据标注集,对给定的训练中文文本进行标注,统计其初始状态系数和状态转移系数;然后根据字典资源文件,对中文文本的每个字符依据其上下文进行特征抽取,得到文本特征;根据所有文本特征,构建特征函数集合,将文本特征转换特征向量;接着将特征向量送给单层神经网络训练分类器模型进行训练,直至模型收敛;再使用单层神经网络模型,对测试数据进行分类,根据统计的初始状态系数、状态转移系数,使用维特比算法进行最优标注序列的求解;最后将最优标注序列与测试原始文本结合,生成分词文本。本发明训练速度更快,消耗资源更少,泛化能力更强。
-
公开(公告)号:CN106570167A
公开(公告)日:2017-04-19
申请号:CN201610981632.X
申请日:2016-11-08
Applicant: 南京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30705 , G06F17/30684
Abstract: 本发明公开了一种基于融合知识的主题模型的微博话题发现方法,涉及自然语言处理领域,该方法包括以下步骤:首先,获取微博数据,并且对微博文本进行评分、中文分词以及停用词过滤;然后,利用融合知识的主题模型对微博文本建模;最后,使用K‑中心和层次聚类的混合聚类发现话题。本发明使用融合知识的主题建模的方法,有效地解决了微博短文本集数据稀疏的问题,并且可以准确地定义主题特征向量,有效地提高聚类准确率。
-
公开(公告)号:CN104317965A
公开(公告)日:2015-01-28
申请号:CN201410649358.7
申请日:2014-11-14
Applicant: 南京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30536 , G06F17/30289
Abstract: 本发明公开了一种基于语料的情感词典构建方法,通过预先获得一部分已知情感倾向的形容词,包括积极的和消极的两种,再利用转折词和否定词,提取并分析未知情感倾向的形容词,不断扩展种子词库,最后做出判断。该方法不需要人工干预,且属于无监督的学习方法,能大大提高工作效率。该方法构造的情感词典,可以用于评论分析,能快速地得到其情感倾向,达到快速分析的目的。
-
-
-