基于社交网络的用户群体消息传播异常分析方法及装置

    公开(公告)号:CN109145109A

    公开(公告)日:2019-01-04

    申请号:CN201710464424.7

    申请日:2017-06-19

    CPC classification number: G06Q50/01

    Abstract: 本发明涉及一种基于社交网络的用户群体消息传播异常分析方法和装置,包括:获取在线社交网络中用户群体的历史聊天记录,根据预先设定的时间跨度,获取历史聊天记录在时间跨度内用户群体中所有用户所发布的消息,作为消息集合;对于消息集合,根据预先设定的时间范围统计用户群体在每个时间范围内所发布的消息总数;基于时序相关性的特征提取法,对每个消息总数的特征进行提取,并将提取结果集合为样本集合;根据消息总数并采用聚类算法为样本集合对样本集合进行聚类,生成异常样本;根据异常样本判定其所在的用户群体存在消息传播异常。由此本发明能够应对数据涌发现象,同时算法直观简单,准确率更高,且本发明应用场景广泛。

    一种面向微博的疑似水军发现方法

    公开(公告)号:CN106940732A

    公开(公告)日:2017-07-11

    申请号:CN201710212983.9

    申请日:2017-04-01

    Abstract: 本发明涉及一种面向微博数据的疑似水军发现方法,属于计算机应用技术领域。本发明共分为以下六个步骤,分别为相关微博数据的采集;数据预处理;用户特征提取;构建训练集;训练水军检测模型;预测判别未标注数据。对比现有技术,本发明实现了数据的充分利用,方便快捷的进行群体发现而不用建立复杂的分类检测模型,从而降低了算法的复杂度,并且算法的模块性较高,可以投入大规模数据计算,具有较高的稳定性;本发明除了可以对单一用户进行水军检测,还可以对某一特定事件中的一批用户进行识别,该方法模块性极强,可以稳定适用于大规模数据计算框架下。

    一种基于自注意力的观点及其持有者的联合抽取方法

    公开(公告)号:CN108628828B

    公开(公告)日:2022-04-01

    申请号:CN201810347840.3

    申请日:2018-04-18

    Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self‑attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。

    一种基于异质数据的人物相似度刻画方法

    公开(公告)号:CN107577782B

    公开(公告)日:2021-04-30

    申请号:CN201710827978.9

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

    信源重要度的评级方法及评级系统

    公开(公告)号:CN106168969B

    公开(公告)日:2019-05-14

    申请号:CN201610524367.2

    申请日:2016-07-05

    Abstract: 本发明提供一种信源重要度的评级方法及评级系统,评级方法包括:步骤1,计算信源所属网站的网站重要度值W1;步骤2,计算信源在所属行业的行业重要度值W2;步骤3,预设定网站重要度权重值C1和行业重要度权重值C2;根据下式计算得到信源重要度值M:信源重要度值M=网站重要度值W1*网站重要度权重值C1+行业重要度值W2*行业重要度权重值C2;步骤4,根据信源重要度值M对信源进行重要度评级,并输出信源重要度评级结果。优点为:本发明能够对信源进行客观、科学合理、有效实用的信源重要度评级。

    短文本相似度计算方法及系统

    公开(公告)号:CN108334495A

    公开(公告)日:2018-07-27

    申请号:CN201810090296.9

    申请日:2018-01-30

    Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。

    一种基于相似概念对的领域概念上下位关系抽取方法

    公开(公告)号:CN105808525B

    公开(公告)日:2018-06-29

    申请号:CN201610186810.X

    申请日:2016-03-29

    Abstract: 本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。

    一种基于热点事件的舆情知识图谱构建方法

    公开(公告)号:CN107633044A

    公开(公告)日:2018-01-26

    申请号:CN201710827984.4

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。

    一种基于微博特定事件的影响力计算方法

    公开(公告)号:CN106980692A

    公开(公告)日:2017-07-25

    申请号:CN201710213302.0

    申请日:2017-04-01

    Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。

Patent Agency Ranking