一种报文信息源抽取方法及其系统

    公开(公告)号:CN103778200B

    公开(公告)日:2017-08-08

    申请号:CN201410010836.X

    申请日:2014-01-09

    Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。

    一种基于微博特定事件的影响力计算方法

    公开(公告)号:CN106980692A

    公开(公告)日:2017-07-25

    申请号:CN201710213302.0

    申请日:2017-04-01

    Abstract: 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。

    一种网络话题热度预测方法

    公开(公告)号:CN106557552A

    公开(公告)日:2017-04-05

    申请号:CN201610958001.6

    申请日:2016-10-27

    Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。

    一种基于微博文本的人物性格刻画方法

    公开(公告)号:CN106202047A

    公开(公告)日:2016-12-07

    申请号:CN201610559542.1

    申请日:2016-07-15

    Abstract: 本发明公开了一种基于微博文本的人物性格刻画方法,属于数据挖掘领域;具体包括:首先,针对某个用户,对该用户某段时间内发的每条微博文本标注情绪标签,统计该用户每天冲动类以及抑郁类情绪的主导天数,从情绪特征角度对用户进行标记;然后,对该用户的所有微博文本进行关注话题分类,并选择该用户的关注话题;判断该用户的关注话题是否包括政治类和民生类,如果有,利用批判性词典对该用户进行语言特征刻画;否则,不做任何处理;最后、融合该用户的情绪特征和语言特征刻画该用户的性格,得到性格标签。优点在于:适用于对微博中人物性格特征刻画和分析,在舆情监控、人物属性刻画和信息传播扩散等领域有重要的应用价值。

    一种利用表情符号对微博进行情感倾向分类的方法

    公开(公告)号:CN103761239B

    公开(公告)日:2016-10-26

    申请号:CN201310664725.6

    申请日:2013-12-09

    Abstract: 本发明公开了一种根据表情符号对微博进行情感倾向分类的方法,包括:创建中性情感集、消极情感集和积极情感集;利用中性情感集、消极情感集和积极情感集,建立中性情感贝叶斯分类器;利用由消极情感集和积极情感集,建立极性情贝叶斯情感分类器;利用中性情感贝叶斯分类器和极性情感贝叶斯分类器对待测微博进行情感分类。本发明通过建立一个两阶段分类,即建立中性情感分类器,把中性情感的微博剔除,建立极性情感分类器,将有极性情感的微博分为积极情感和消极情感,该分类器分类速度快、占用空间小且鲁棒,且本发明能通过微博准确的了解到人们对当前的热门话题或事件的态度和网民的情绪,对社会科研和调查有着重要的帮助。

    一种计算微博用户影响力的方法

    公开(公告)号:CN105205146A

    公开(公告)日:2015-12-30

    申请号:CN201510600289.5

    申请日:2015-09-18

    CPC classification number: G06F17/3089

    Abstract: 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。

    一种针对千万级规模新闻评论的观点挖掘方法

    公开(公告)号:CN104778209A

    公开(公告)日:2015-07-15

    申请号:CN201510111752.X

    申请日:2015-03-13

    Abstract: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。

Patent Agency Ranking