-
公开(公告)号:CN109977227A
公开(公告)日:2019-07-05
申请号:CN201910205999.6
申请日:2019-03-19
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于信息分类领域,具体涉及了一种基于特征编码的文本特征提取方法、系统、装置,旨在解决文本特征提取中运算复杂度高、分类效率和精度低的问题。本发明方法包括:对获取的文本预处理,获得词候选特征序列;基于词候选特征序列,生成多个二进制编码;采用基因遗传算法筛选二进制编码,获得最优二进制编码;解码最优二进制编码获得最优词特征序列并输出。本发明将一系列候选特征转化为易处理的编码序列,并使用基因遗传算法的自动筛选功能,对特征进行最大化的全局最优挑选,能够有效地筛选出最小有效特征集。
-
公开(公告)号:CN109960756A
公开(公告)日:2019-07-02
申请号:CN201910207437.5
申请日:2019-03-19
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/953 , G06F16/34 , G06F16/35 , G06F17/27
Abstract: 本发明公开了一种新闻事件信息归纳方法,包括:收集新闻素材,创建新闻库;从新闻库中获取目标事件的所有新闻文本,并进行热度分析,获取拐点新闻文本,抽取所述拐点新闻文本中的事件信息并保存;其中,获取拐点新闻文本的方法包括:统计所有新闻文本的热度值,按照新闻文本发布的时间顺序排序,构建热度值随时间变化的曲线图,取曲线图的所有极大点对应的新闻文本,即为所述拐点新闻文本,所述热度值为新闻的页面浏览量和网站独立访客量之和。本发明的方法通过选择对于目标新闻事件处于关键节点时的新闻文本——即拐点新闻文本进行摘要分析处理,准确地反映了新闻事件的发展态势。
-
公开(公告)号:CN108920479A
公开(公告)日:2018-11-30
申请号:CN201810337919.8
申请日:2018-04-16
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种针对两微一端跨信源账号推荐方法,包括:将两微一端跨信源账号关联度衡量指标分为三级,包括多个一级关联度衡量指标,各个一级指标下分多个二级指标,以及各二级指标对应的各维度数据字段为三级指标;确定种子账户和多个目标账户;采集三级指标下的各维度数据,量化各个维度数据的相似度;基于用户关注度需求确定一级指标权重和一级指标下各个二级指标的权重;将所得各类三级关联度衡量指标下各个维度数据相似度与各自权重加权求和,获得各目标账号关联度指数,并将这些目标账户关联度指数倒序推荐。本发明所述推荐方法可跨信源进行账号推荐,且推荐结果精确合理。
-
公开(公告)号:CN108804594A
公开(公告)日:2018-11-13
申请号:CN201810523561.8
申请日:2018-05-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。
-
公开(公告)号:CN108628828A
公开(公告)日:2018-10-09
申请号:CN201810347840.3
申请日:2018-04-18
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明一种基于自注意力的观点及其持有者的联合抽取方法:S1.构建提取观点及其持有者的语料集;S2.识别包含观点的语句;S3.联合抽取观点及其持有者。本发明优点:1、文本分类模型避免了抽取出的句子不包含观点的情况;2、观点及其持有者联合抽取模型摆脱了词性标注、命名实体识别和句法依存分析等自然语言处理环节,避免这些环节出现误差对模型提取效果的影响,且该模型有很高灵活度和覆盖面;3、本发明包含构建提取观点及其持有者的语料集,识别包含观点的语句,联合抽取观点及其持有者。4、本发明在双向LSTM的基础上使用self-attention有效结合两者优点,使词语序列的表示语义更丰富,训练的模型准确率更高。
-
公开(公告)号:CN108470046A
公开(公告)日:2018-08-31
申请号:CN201810184478.2
申请日:2018-03-07
Applicant: 中国科学院自动化研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/34 , G06F16/9535
Abstract: 本发明涉及计算机技术领域,具体提供了一种基于新闻事件搜索语句的新闻事件排序方法及系统,旨在解决在考虑用户主观信息的情况下,如何实现新闻事件排序的技术问题。为此目的,本发明中的新闻事件排序方法,能够通过预设的新闻事件排序模型对预先获取的新闻事件搜索语句进行识别,得到按照相关度大小排序的新闻事件排序结果。其中,新闻事件搜索语句包含能够表征用户情感倾向的用户主观信息。基于此,本发明能够结合用户对新闻事件的情感倾向,按照新闻事件与用户偏好相关程度进行排序,从而提高新闻事件排序结果的准确性。同时,本发明中的系统能够执行并实现上述方法。
-
公开(公告)号:CN104778210B
公开(公告)日:2018-04-27
申请号:CN201510111754.9
申请日:2015-03-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种微博转发树和转发森林构建方法,属于数据挖掘领域,包括以下步骤:收集该条微博的原创微博信息;并且根据单条原创微博信息,获取其转发微博信息;然后在单条原创微博信息及其所有转发微博信息上,构造单条微博的微博树结构;根据用户给定时间段t3‑t4内的话题关键词Topic,收集与该话题相关的全量微博信息,针对每一条微博信息,构造单条微博的微博树结构;最后汇总该话题相关的全量微博信息的转发树;形成微博转发森林。本发明的优点为:通过转发树生成算法,高效快速完整地进行转发树和转发森林的提取,具有较高的效率和效果。
-
公开(公告)号:CN106909637A
公开(公告)日:2017-06-30
申请号:CN201710079050.7
申请日:2017-02-14
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
IPC: G06F17/30
CPC classification number: G06F17/30861 , G06F17/3061
Abstract: 本发明公开了一种微信公众号的影响力分析方法,包括如下步骤:步骤一、采集某一微信公众号下设定时间内发布的m篇文章中每篇文章的阅读数αi和点赞数βi,并计算阅读数和点赞数的转化率k=阅读总数/点赞总数;步骤二、当微信公众号下某篇文章的阅读数为100000+时,利用αx=k*βx计算得到文章的阅读数,其中αx为篇文章阅读数,βx为文章点赞数,设置单篇文章阅读数1×107为上限;步骤三、依据如下公式计算微信公众号的影响力权重:η为微信公众号的权威性权重;以用于对微信公众号发布信息的管理及对微信公众号的影响力的分析。本发明还公开了一种微信公众号的影响力分析系统。本发明极大地节省了人工成本,大幅度提高公众号影响力的分析效率。
-
公开(公告)号:CN106227766A
公开(公告)日:2016-12-14
申请号:CN201610559551.0
申请日:2016-07-15
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明公开了一种大数据驱动的选举舆情预测方法,属于数据挖掘领域。具体为:首先,根据选举国家或地区的互联网网路使用报告和地区网站排名,挑选出大数据信息源;再对每一类信息源进行分析,构建民意预测指标;然后融合提取出的多源预测指标,形成当前互联网民众支持率;进而收集民调报告,融合报告中各年龄段人群对候选人的支持率,形成线下民调支持率值;考虑选举国家或地区人口结构构成和网民年龄分布,融合候选人互联网支持率值与线下民调支持率值,运用移动平均方法,预测下一时间节点候选人支持率值,预测结果以日频度更新。本发明具有数据源广泛、预测周期短、实时性强等特点,在舆情监控和观点分析等领域有重要的应用价值。
-
公开(公告)号:CN105893481A
公开(公告)日:2016-08-24
申请号:CN201610187149.4
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种基于马尔可夫聚类的实体间关系消解方法,包括:计算K个实体中任意两个实体之间的语义相似度;根据实体间的语义相似度构造赋权图G;构造状态转移矩阵M;在状态转移矩阵M上执行马尔科夫聚类算法,得到多个关系簇;其中,每个簇代表一系列语义相近似的实体。本发明提供的基于马尔可夫聚类的实体间关系消解方法具有以下优点:提出了融合词法和语义的相似度计算方法,然后给出了基于马尔科夫图聚类的关系聚类方法。该方法与层次聚类方法相比,聚类纯度指标有了一定提高,还具有计算过程简单快速的优点。
-
-
-
-
-
-
-
-
-