一种大数据驱动的选举舆情预测方法

    公开(公告)号:CN106227766A

    公开(公告)日:2016-12-14

    申请号:CN201610559551.0

    申请日:2016-07-15

    CPC classification number: G06F16/951

    Abstract: 本发明公开了一种大数据驱动的选举舆情预测方法,属于数据挖掘领域。具体为:首先,根据选举国家或地区的互联网网路使用报告和地区网站排名,挑选出大数据信息源;再对每一类信息源进行分析,构建民意预测指标;然后融合提取出的多源预测指标,形成当前互联网民众支持率;进而收集民调报告,融合报告中各年龄段人群对候选人的支持率,形成线下民调支持率值;考虑选举国家或地区人口结构构成和网民年龄分布,融合候选人互联网支持率值与线下民调支持率值,运用移动平均方法,预测下一时间节点候选人支持率值,预测结果以日频度更新。本发明具有数据源广泛、预测周期短、实时性强等特点,在舆情监控和观点分析等领域有重要的应用价值。

    针对特定领域的新词发现方法

    公开(公告)号:CN105760366A

    公开(公告)日:2016-07-13

    申请号:CN201610150038.6

    申请日:2016-03-16

    CPC classification number: G06F17/2715 G06F17/277

    Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

    一种基于异质数据的人物相似度刻画方法

    公开(公告)号:CN107577782B

    公开(公告)日:2021-04-30

    申请号:CN201710827978.9

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。

    信源重要度的评级方法及评级系统

    公开(公告)号:CN106168969B

    公开(公告)日:2019-05-14

    申请号:CN201610524367.2

    申请日:2016-07-05

    Abstract: 本发明提供一种信源重要度的评级方法及评级系统,评级方法包括:步骤1,计算信源所属网站的网站重要度值W1;步骤2,计算信源在所属行业的行业重要度值W2;步骤3,预设定网站重要度权重值C1和行业重要度权重值C2;根据下式计算得到信源重要度值M:信源重要度值M=网站重要度值W1*网站重要度权重值C1+行业重要度值W2*行业重要度权重值C2;步骤4,根据信源重要度值M对信源进行重要度评级,并输出信源重要度评级结果。优点为:本发明能够对信源进行客观、科学合理、有效实用的信源重要度评级。

    一种计算微博用户影响力的方法

    公开(公告)号:CN105205146B

    公开(公告)日:2018-10-30

    申请号:CN201510600289.5

    申请日:2015-09-18

    Abstract: 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。

    针对特定领域的新词发现方法

    公开(公告)号:CN105760366B

    公开(公告)日:2018-06-29

    申请号:CN201610150038.6

    申请日:2016-03-16

    Abstract: 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

    一种基于热点事件的舆情知识图谱构建方法

    公开(公告)号:CN107633044A

    公开(公告)日:2018-01-26

    申请号:CN201710827984.4

    申请日:2017-09-14

    Abstract: 本发明公开了一种基于热点事件的舆情知识图谱构建方法,属于自然语言处理领域;首先实时获取微博文本,对每个微博文本进行处理,构建文本簇,计算每个文本簇所属的话题类别,按类别识别每个簇中的热点事件,统计每个热点事件的多维属性;识别参与热点事件讨论的重要人物和机构,并获取重要人物和机构的多维属性;最后构建事件、人物、机构的多维属性体系及关系类型,以事件、人物、机构为实体,事件、人物、机构之间的关系为关联,构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画,实现对热点事件、人物、机构的全方位解析;并根据实际需求,设置不同话题类别的权重,实现不同话题的舆情知识图谱构建。

    一种报文信息源抽取方法及其系统

    公开(公告)号:CN103778200B

    公开(公告)日:2017-08-08

    申请号:CN201410010836.X

    申请日:2014-01-09

    Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。

Patent Agency Ranking