-
公开(公告)号:CN106484733A
公开(公告)日:2017-03-08
申请号:CN201510550175.4
申请日:2015-09-01
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/9535 , G06F16/951
Abstract: 本申请公开一种新闻线索个性化推送方法及系统,该方法包括:步骤1,创建新闻线索领域的标签,为每个新闻线索领域分别训练一个新闻线索分类模型,使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类,并存入对应领域的新闻线索集;步骤2,基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分,选择得分最高的N条线索作为待推荐线索;步骤3,由用户从所述标签中选择自己感兴趣的新闻线索领域,然后将对应于所选兴趣领域的待推荐线索推送给用户。由此,能够根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送。
-
公开(公告)号:CN106708796A
公开(公告)日:2017-05-24
申请号:CN201510416419.X
申请日:2015-07-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种基于文本的关键人名的提取方法及系统,该方法包括:步骤1,对目标文本执行一分词操作,提取出其中词性为人名的目标词语;步骤2,统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重;步骤3,根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重;步骤4,选取权重大的目标词语作为关键人名。通过本发明的上述方法,可实现与特定事件相关的人物提取,还可实现对文本中的关键人名提取,以及重要传播用户、事件发展节点用户、公众指向用户、信息源头用户的提取,且能够提高人物提取的准确性和有效性。
-
公开(公告)号:CN106372083B
公开(公告)日:2019-10-18
申请号:CN201510435105.4
申请日:2015-07-22
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种有争议性新闻线索自动发现的方法及系统,该方法包括:步骤1,利用预设的初始文本对一文本集进行检索,获得多个检索文本;步骤2,对该多个检索文本进行聚类,对每一类的检索文本分别执行摘要提取算法,以获得该类的线索文本;步骤3,利用每类的该线索文本进行检索,获得每类的多个扩充文本;步骤4,利用每类的该多个扩充文本进行特征提取,基于一预设的打分模型对提取得到的每类的特征进行打分,分数高于一阈值的类所对应的线索文本为有争议的新闻线索。本发明可从大量文本中自动发现有争议新闻线索,实现了海量信息的深层信息挖掘,且可不断完善信息挖掘的准确度、有效性。
-
公开(公告)号:CN106372083A
公开(公告)日:2017-02-01
申请号:CN201510435105.4
申请日:2015-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种有争议性新闻线索自动发现的方法及系统,该方法包括:步骤1,利用预设的初始文本对一文本集进行检索,获得多个检索文本;步骤2,对该多个检索文本进行聚类,对每一类的检索文本分别执行摘要提取算法,以获得该类的线索文本;步骤3,利用每类的该线索文本进行检索,获得每类的多个扩充文本;步骤4,利用每类的该多个扩充文本进行特征提取,基于一预设的打分模型对提取得到的每类的特征进行打分,分数高于一阈值的类所对应的线索文本为有争议的新闻线索。本发明可从大量文本中自动发现有争议新闻线索,实现了海量信息的深层信息挖掘,且可不断完善信息挖掘的准确度、有效性。
-
公开(公告)号:CN104572807B
公开(公告)日:2018-02-06
申请号:CN201410594515.9
申请日:2014-10-29
Applicant: 中国科学院计算技术研究所 , 新华通讯社
IPC: G06F17/30
Abstract: 本发明涉及微博新闻可信度领域,特别涉及一种基于微博信息源的新闻认证方法及系统,该方法包括:提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并根据以上三个比例,获取所述用户的社交关系可信度值;获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;获取微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;将以上三个可信度值进行线性加权求和作为综合可信度值。
-
公开(公告)号:CN106372078A
公开(公告)日:2017-02-01
申请号:CN201510433965.4
申请日:2015-07-22
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/955
Abstract: 本发明公开了一种基于微博平台的事件外部信息源获取方法及系统,该方法包括步骤1,基于针对一事件的多个微博消息,提取每个该微博消息中携带的URL,选取其中出现频率最高的N个URL作为待处理URL,N为正整数;步骤2,分别访问每个该待处理URL,从返回消息中获取每个待处理URL对应的完整链接;步骤3,过滤掉该完整链接中的无效链接;步骤4,根据一预设URL词典,为每个该完整链接设置权值,依据该权值确定该事件的至少一个外部信息源。利用本发明的方法可快速准确的定位到真正的外部信息源,避免购物网站等无效信息源的干扰,同时可保证所有定位到的外部信息源都是可访问达到有效链接。
-
公开(公告)号:CN106484733B
公开(公告)日:2019-07-30
申请号:CN201510550175.4
申请日:2015-09-01
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535
Abstract: 本申请公开一种新闻线索个性化推送方法及系统,该方法包括:步骤1,创建新闻线索领域的标签,为每个新闻线索领域分别训练一个新闻线索分类模型,使用所述新闻线索分类模型来对新闻线索候选集中的每条新闻线索进行分类,并存入对应领域的新闻线索集;步骤2,基于线索热度、时效性、和可信度建立新闻线索评分模型来对每个所述线索集中的每条新闻线索进行评分,选择得分最高的N条线索作为待推荐线索;步骤3,由用户从所述标签中选择自己感兴趣的新闻线索领域,然后将对应于所选兴趣领域的待推荐线索推送给用户。由此,能够根据用户群特点快速准确的从候选新闻线索集中找到用户需要的有价值的线索并进行推送。
-
公开(公告)号:CN104572807A
公开(公告)日:2015-04-29
申请号:CN201410594515.9
申请日:2014-10-29
Applicant: 中国科学院计算技术研究所 , 新华通讯社
IPC: G06F17/30
CPC classification number: G06F17/3089 , G06Q50/01
Abstract: 本发明涉及微博新闻可信度领域,特别涉及一种基于微博信息源的新闻认证方法及系统,该方法包括:提取新闻的信息源,作为待认证信息源,获取与所述待认证信息源相对应用户的用户信息;获取所述用户的互粉比例、认证粉丝比例、粉丝数与关注数比例,并根据以上三个比例,获取所述用户的社交关系可信度值;获取所述用户的用户活跃度与历史微博平均影响力,将所述用户活跃度与所述历史微博平均影响力的乘积作为所述用户的社交行为可信度值;获取微博的评价舆情指数,同时查找所述微博的评论微博,并获取所述评论微博的评论舆情指数,将所述评价舆情指数与所述评论舆情指数作为社交评价可信度值;将以上三个可信度值进行线性加权求和作为综合可信度值。
-
-
-
-
-
-
-