-
公开(公告)号:CN107562784A
公开(公告)日:2018-01-09
申请号:CN201710609311.1
申请日:2017-07-25
Applicant: 同济大学
Abstract: 基于ResLCNN模型的短文本分类方法。本发明涉及文本挖掘和深度学习技术领域,特别涉及到用于短文本分类的深度学习模型。本发明的技术方案是结合长短时记忆网络和卷积神经网络的特性,搭建了用于短文本分类的ResLCNN深层文本分类模型。该模型包含三层长短时记忆网络层和一层卷积神经网络层,并借鉴残差模型理论,在第一层长短时记忆网络层与卷积神经网络层之间加入恒等映射,构建残差层,缓解了深层模型梯度消失问题。该模型有效结合长短时记忆网络获取文本序列数据的长距离依赖特征和卷积神经网络通过卷积操作获取句子局部特征的优势,提高了短文本分类效果。
-
公开(公告)号:CN103984681B
公开(公告)日:2017-01-25
申请号:CN201410127095.3
申请日:2014-03-31
Applicant: 同济大学
IPC: G06F17/27
Abstract: 本发明“基于时序分布信息和主题模型的新闻事件演化分析方法”,涉及文本分析领域。首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型依次对每个子语料库进行主题建模,通过Gibbs抽样的方法将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。能更好地刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。
-
公开(公告)号:CN103324700A
公开(公告)日:2013-09-25
申请号:CN201310229229.8
申请日:2013-06-08
Applicant: 同济大学
IPC: G06F17/30
Abstract: 本发明涉及本体学习领域,特别涉及到基于Web信息的本体概念属性学习方法。本发明的技术方案是以Web作为语料库,构建语言模式并作为Google搜索引擎的查询集合,进行网页片段和对应的源网址URL提取,以构建候选概念属性词库;根据候选词的URL构建文本集作为LDA的输入,采用Gibbs抽样的方法来获取LDA模型的训练参数,根据LDA模型的运行结果修剪和合并属性候选库,确立最终的概念属性词集。本发明能够更加准确有效地获取本体中的概念属性集合,从而使得自动或半自动构建本体成为可能。
-
公开(公告)号:CN103207856A
公开(公告)日:2013-07-17
申请号:CN201310114031.5
申请日:2013-04-03
Applicant: 同济大学
IPC: G06F17/27
Abstract: 本发明涉及本体学习领域,特别涉及到一种本体概念及层次关系生成方法。本发明的技术方案是将PAM概率主题模型应用于本体概念及层次的抽取,改进本体概念及层次关系学习的效果,以达到更加准确有效地生成本体概念。该方法首先通过建立基于PAM的本体概念及层次生成模型,将领域本体概念学习问题有效地转化为基于领域文档集的统计推断问题,采用Gibbs抽样的方法来获取概率分布特征向量;然后进行基于Wordnet的语义相似度计算,根据相似度关联关系生成概念,从而得到本体概念的集合及其层次关系。本发明能够更加准确有效地获取领域本体中的概念集合及概念间层次关系。
-
-
-