-
公开(公告)号:CN104408093B
公开(公告)日:2018-01-26
申请号:CN201410645944.4
申请日:2014-11-14
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
-
公开(公告)号:CN103268339A
公开(公告)日:2013-08-28
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN103279482A
公开(公告)日:2013-09-04
申请号:CN201310143346.2
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客平台的社交朋友圈的挖掘方法及系统,其方法包括:步骤1,通过微博客平台所提供的数据接口得到待查看用户的朋友列表;步骤2,针对所述朋友列表中的每个朋友用户,通过微博客平台所提供的数据接口得到所述每个朋友用户的朋友列表;步骤3,计算所述待查看用户的朋友列表与所述每个朋友用户的朋友列表的邻里相似度;步骤4,取出邻里相似度大于指定阈值的朋友用户,作为所述待查看用户的现实朋友用户;步骤5,计算所述待查看用户与所述现实朋友用户所构成的有向连通图中的最强连通子图,所获得的每个最强连通子图构成所述待查看用户的社交朋友圈。本发明能够在海量用户中挖掘社交朋友圈。
-
公开(公告)号:CN103268339B
公开(公告)日:2016-06-01
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN104408093A
公开(公告)日:2015-03-11
申请号:CN201410645944.4
申请日:2014-11-14
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/30905 , G06F17/2765
Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。
-
公开(公告)号:CN104615685B
公开(公告)日:2018-01-26
申请号:CN201510032875.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。
-
公开(公告)号:CN104615685A
公开(公告)日:2015-05-13
申请号:CN201510032875.4
申请日:2015-01-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30598 , G06F17/30705 , G06F17/30867
Abstract: 本发明提供一种面向网络话题的热度评价方法,包括:将网络话题的属性与规则中的属性进行对比;其中,所述规则是经过训练得到的,且用于指示网络话题的属性与热度值的对应关系;以及根据对比的结果得到该网络话题的热度值。本发明定义了数值评价体系,方便了用户理解话题的热度程度,有利于话题之间的热度比较;以及,采用粗糙集相关理论最优化训练集中的不一致性,学习出热度值与属性之间的关系,提供了高热度评价的效果,其中,将无限制的属性值离散化到有限的数值范围内,减小了计算的复杂度;此外,综合多种背景知识的用户的评价得到训练集,使得样本数据更为全面,尽可能地减轻了个体的偏见。
-
公开(公告)号:CN103279482B
公开(公告)日:2015-05-13
申请号:CN201310143346.2
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客平台的社交朋友圈的挖掘方法及系统,其方法包括:步骤1,通过微博客平台所提供的数据接口得到待查看用户的朋友列表;步骤2,针对所述朋友列表中的每个朋友用户,通过微博客平台所提供的数据接口得到所述每个朋友用户的朋友列表;步骤3,计算所述待查看用户的朋友列表与所述每个朋友用户的朋友列表的邻里相似度;步骤4,取出邻里相似度大于指定阈值的朋友用户,作为所述待查看用户的现实朋友用户;步骤5,计算所述待查看用户与所述现实朋友用户所构成的有向连通图中的最强连通子图,所获得的每个最强连通子图构成所述待查看用户的社交朋友圈。本发明能够在海量用户中挖掘社交朋友圈。
-
-
-
-
-
-
-