一种英文社交媒体短文本分词方法

    公开(公告)号:CN106383814B

    公开(公告)日:2020-05-19

    申请号:CN201610818351.2

    申请日:2016-09-13

    Abstract: 本发明公开了一种英文社交媒体短文本分词方法,包括预处理、识别特殊字符、去边界字符、情态动词缩写形式识别以及多联词识别五个步骤。本发明使用基于正则表达式匹配和词频统计方法,提出了较为完备的英文社交媒体短文本中特殊字符以及多联词的识别方案,对文本词频向量构建、文本的分类和聚类效果、后续的词性标注、命名实体识别都能够起到较大的改进作用,实现了对英文社交媒体短文本分词,并取得了较好效果。

    一种社交媒体在线短文本聚类和话题检测方法

    公开(公告)号:CN106383877B

    公开(公告)日:2020-10-27

    申请号:CN201610818311.8

    申请日:2016-09-12

    Abstract: 本发明公开一种社交媒体在线短文本聚类和话题检测方法,通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别,一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题,实现了在线大规模短文本的有效聚类。本发明提出的可扩展词向量空间解决了高维稀疏词向量的存储和降低了计算复杂度;本发明采用的利用词语索引加速了聚类方法;改进的“相似胜者合并后全得”的聚类方式和“熵不增加”的相似类合并准则缓解了因短文本特征高维稀疏带来的相同话题类合并不充分问题;本发明采用的热门话题检测识别的方法能对有价值和无价值的话题能做一个比较简单但有效的分类,挖掘跟踪有价值的话题。

    基于主题的社交媒体短文本在线聚类方法

    公开(公告)号:CN109086443A

    公开(公告)日:2018-12-25

    申请号:CN201810937692.0

    申请日:2018-08-17

    Abstract: 本发明公开一种基于主题的社交媒体短文本在线聚类方法,本发明采用保守的预聚类方法将文本预先聚合成长文本,增强了词语之间的共现关系,提取的主题更加清晰、区分度更高;并且使用平滑技术和归一化技术的贝叶斯推断方法,具有新主题判别功能,基于此实现的在线增量聚类方法,效率比非增量聚类方法更高,与传统的在线增量聚类方法相比,准确率更高,主题数量更接近真实值。

    一种基于异质网络的社交网络事件关联分析方法

    公开(公告)号:CN106372239A

    公开(公告)日:2017-02-01

    申请号:CN201610822837.3

    申请日:2016-09-14

    CPC classification number: G06Q50/01 G06F17/30867 G06F2216/03

    Abstract: 本发明公开了一种基于异质网络的社交网络事件关联分析方法,具体为:构建社交网络空间中人物-事件异质网络;提取人物-事件异质网络中节点和边的信息特征;在人物-事件异质网络的连边约束下,进行社团划分,得到人物社团、事件社团;通过人物-事件关联约束,对人物-事件异质网络进行异质社团划分,通过对划分结果的研究,达到事件关联性分析的目的。本发明的方法利用异质网络,增加社交网络中用户,事件和用户事件三个图的构造,通过对社交网络中的事件进行进一步的分析,达到挖掘社交网络中的事件关联性的目的。

    一种社交媒体在线短文本聚类和话题检测方法

    公开(公告)号:CN106383877A

    公开(公告)日:2017-02-08

    申请号:CN201610818311.8

    申请日:2016-09-12

    Abstract: 本发明公开一种社交媒体在线短文本聚类和话题检测方法,通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别,一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题,实现了在线大规模短文本的有效聚类。本发明提出的可扩展词向量空间解决了高维稀疏词向量的存储和降低了计算复杂度;本发明采用的利用词语索引加速了聚类方法;改进的“相似胜者合并后全得”的聚类方式和“熵不增加”的相似类合并准则缓解了因短文本特征高维稀疏带来的相同话题类合并不充分问题;本发明采用的热门话题检测识别的方法能对有价值和无价值的话题能做一个比较简单但有效的分类,挖掘跟踪有价值的话题。

    一种英文社交媒体短文本分词方法

    公开(公告)号:CN106383814A

    公开(公告)日:2017-02-08

    申请号:CN201610818351.2

    申请日:2016-09-13

    Abstract: 本发明公开了一种英文社交媒体短文本分词方法,包括预处理、识别特殊字符、去边界字符、情态动词缩写形式识别以及多联词识别五个步骤。本发明使用基于正则表达式匹配和词频统计方法,提出了较为完备的英文社交媒体短文本中特殊字符以及多联词的识别方案,对文本词频向量构建、文本的分类和聚类效果、后续的词性标注、命名实体识别都能够起到较大的改进作用,实现了对英文社交媒体短文本分词,并取得了较好效果。

Patent Agency Ranking