一种基于微博文本的人物性格刻画方法

    公开(公告)号:CN106202047A

    公开(公告)日:2016-12-07

    申请号:CN201610559542.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于微博文本的人物性格刻画方法,属于数据挖掘领域;具体包括:首先,针对某个用户,对该用户某段时间内发的每条微博文本标注情绪标签,统计该用户每天冲动类以及抑郁类情绪的主导天数,从情绪特征角度对用户进行标记;然后,对该用户的所有微博文本进行关注话题分类,并选择该用户的关注话题;判断该用户的关注话题是否包括政治类和民生类,如果有,利用批判性词典对该用户进行语言特征刻画;否则,不做任何处理;最后、融合该用户的情绪特征和语言特征刻画该用户的性格,得到性格标签。优点在于:适用于对微博中人物性格特征刻画和分析,在舆情监控、人物属性刻画和信息传播扩散等领域有重要的应用价值。

    一种基于微博特定事件的影响力计算方法

    公开(公告)号:CN106980692B

    公开(公告)日:2020-12-08

    申请号:CN201710213302.0

    申请日:2017-04-01

    Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。

    一种基于用户画像的短文本分类方法

    公开(公告)号:CN106126605B

    公开(公告)日:2019-12-10

    申请号:CN201610453205.4

    申请日:2016-06-21

    Abstract: 本发明公开了一种基于用户画像的短文本分类方法。本方法为:1)基于用户发出的短文本数据生成对应用户的用户画像;其中,用户ui的用户画像为用户ui属于类别ci的值;2)采用分类器对该用户ui的短文本TS进行分类,得到该短文本TS所属类别的可能性F={f1,...,fi,...,fm};3)根据用户ui的用户画像与F={f1,...,fi,...,fm}计算该短文本TS属于各类别的值,选出最大的类别结果作为该短文本TS的类别标签。本发明大大增加了分类的准确率。

    一种基于马尔可夫聚类的实体间关系消解方法

    公开(公告)号:CN105893481B

    公开(公告)日:2019-01-29

    申请号:CN201610187149.4

    申请日:2016-03-29

    Abstract: 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。

    一种基于异质数据的人物相似度刻画方法

    公开(公告)号:CN107577782A

    公开(公告)日:2018-01-12

    申请号:CN201710827978.9

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

    一种网络评论产生式摘要方法

    公开(公告)号:CN105912644A

    公开(公告)日:2016-08-31

    申请号:CN201610217911.9

    申请日:2016-04-08

    CPC classification number: G06F16/345 G06F17/2775

    Abstract: 本发明公开了一种网络评论产生式摘要方法。首先,基于标点符号对评论进行短语分割、分词并标记每个词语的词性,进而基于评论对象参数字典和句法模板过滤掉与评论对象无关的短语;然后,计算短语情感极性强度值,根据评论对象参数的所有短语的情感极性强度值对评论对象参数的重要性进行排序,选取最重要的一部分参数进行摘要生成;最后,针对选取的每个参数,选取一个对该参数最重要的一个评论短语,把选取的所有短语置入到设计好的摘要模板中以生成评论摘要。本发明综合利用了情感分析、词性分析等技术提取有效的用户评论信息,并根据设计好的模板生成摘要,对提高摘要的可读性和准确性有很大帮助。

    微博深度分类方法及系统
    40.
    发明公开

    公开(公告)号:CN105843957A

    公开(公告)日:2016-08-10

    申请号:CN201610236172.8

    申请日:2016-04-15

    Abstract: 本发明实施例提供一种微博深度分类方法及系统,该方法包括:将分词处理后的第一微博训练样本数据分别与各第一筛选词库进行词汇匹配,确定所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率;将所述第一微博训练样本数据在所述各第一筛选词库中出现的词汇频率进行归一化处理,并将归一化处理后的数据输入学习模型;根据所述学习模型的输出确定微博事件分类模型;根据所述微博事件分类模型对微博文本进行分类。本发明实施例提供的微博深度分类方法及系统,能够对微博文本进行深入的细化分类,提高微博文本的分类正确率。

Patent Agency Ranking