-
公开(公告)号:CN110909167A
公开(公告)日:2020-03-24
申请号:CN201911197204.8
申请日:2019-11-29
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/9536 , G06N3/04
Abstract: 本发明请求保护一种微博文本分类系统,具体包括以下模块:数据预处理模块:用python爬虫软件爬取微博博文信息和微博用户信息,清洗缺失的数据,并根据情感极性进行人工打标;词向量词性增强模块:通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息;新特征构造模块:用于对微博用户信息进行特征提取工作,在原始特征的基础上构造出新的特征;分类模块:利用改进的textCNN模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,将微博文本分为积极、消极和中性三种类型。
-
公开(公告)号:CN110909167B
公开(公告)日:2022-07-01
申请号:CN201911197204.8
申请日:2019-11-29
Applicant: 重庆邮电大学
IPC: G06F16/35 , G06F16/9536 , G06N3/04
Abstract: 本发明请求保护一种微博文本分类系统,具体包括以下模块:数据预处理模块,用python爬虫软件爬取微博博文信息和微博用户信息,清洗缺失的数据,并根据情感极性进行人工打标;词向量词性增强模块:通过word2vec构造微博博文信息的词向量,在原始词向量的基础上,根据情感词词典和程度副词词典增强词性信息;新特征构造模块:用于对微博用户信息进行特征提取工作,在原始特征的基础上构造出新的特征;分类模块:利用改进的textCNN模型,先通过卷积层和池化层学习词向量信息,再通过全连接层融入用户信息,最后用softmax函数激活,将微博文本分为积极、消极和中性三种类型。
-