-
公开(公告)号:CN110413784A
公开(公告)日:2019-11-05
申请号:CN201910666645.1
申请日:2019-07-23
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于知识图谱的舆情关联分析方法,包括:提取互联网舆情知识中实体的属性和关系,基于知识图谱构建舆情业务知识库;确定需要关联分析的多个相同或不同类型的实体,采用相交、合并或者消减的方式对多个相同或不同类型的实体进行组合;确定多个相同或不同类型的实体每种组合方式进行关联分析的结果构成,得到分析结果。本发明还提供一种基于知识图谱的舆情关联分析系统。本发明可以实现包括特定人物、特定组织、特定事件、特定专题等在内的相同类型或不同类型知识的关联分析,并实现关联实体的多维度深度分析和关联挖掘,帮助业务用户准确掌握各类不同群体的关联情况,以及关联实体的全方位智能分析结果,进而辅助决策。
-
公开(公告)号:CN109977219A
公开(公告)日:2019-07-05
申请号:CN201910207415.9
申请日:2019-03-19
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
Abstract: 本发明公开了基于启发式规则的文本摘要自动生成方法,包括:S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。以及,基于启发式规则的文本摘要自动生成装置。采用本发明的方法生成的文本摘要的句子组织连贯性好,可读性强。
-
公开(公告)号:CN106156150B
公开(公告)日:2019-06-25
申请号:CN201510175964.4
申请日:2015-04-14
Applicant: 北大方正集团有限公司 , 北京大学 , 国家计算机网络与信息安全管理中心 , 北京北大方正电子有限公司
IPC: G06F16/9535 , G06F16/332
Abstract: 本发明公开了一种微博用户关联信息筛选方法及装置,用以解决现有技术中存在的数据稀疏的问题,以及推荐效果不理想,降低系统推荐效率的问题,该方法包括:首先确定当前用户的关联用户集合、特征向量、以及社区结构和主题;根据该每一个关联用户对应的特征向量中的每一个特征项和每一个社区结构对应的主题,得到用户主题分布;根据用户主题分布,筛选出当前用户的目标关联用户,这样,可以避免了推荐结果数据稀疏的问题,提高了系统的推荐效率,并得到与当前用户的兴趣爱好一致的关联用户。
-
公开(公告)号:CN106168969B
公开(公告)日:2019-05-14
申请号:CN201610524367.2
申请日:2016-07-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明提供一种信源重要度的评级方法及评级系统,评级方法包括:步骤1,计算信源所属网站的网站重要度值W1;步骤2,计算信源在所属行业的行业重要度值W2;步骤3,预设定网站重要度权重值C1和行业重要度权重值C2;根据下式计算得到信源重要度值M:信源重要度值M=网站重要度值W1*网站重要度权重值C1+行业重要度值W2*行业重要度权重值C2;步骤4,根据信源重要度值M对信源进行重要度评级,并输出信源重要度评级结果。优点为:本发明能够对信源进行客观、科学合理、有效实用的信源重要度评级。
-
公开(公告)号:CN108880980A
公开(公告)日:2018-11-23
申请号:CN201810403059.3
申请日:2018-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
Abstract: 本发明公开一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块;对象存储模块;关键词提取模块;群消息库模块。本发明具有能将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,可以有效、直观的监测微信群的优点。
-
公开(公告)号:CN108846017A
公开(公告)日:2018-11-20
申请号:CN201810426304.2
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
Abstract: 本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,包括如下步骤:S1.进行Word Embedding的字级别语义特征表示;S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型;S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型;S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度,且有效地防止特征过于稀疏问题。优化了最终的输出向量,增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题,又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器,方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。
-
公开(公告)号:CN105205146B
公开(公告)日:2018-10-30
申请号:CN201510600289.5
申请日:2015-09-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种计算微博用户影响力的方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、服务器将微博流数据平均分发到多个端口;步骤三、对流数据进行特征提取和并行计算;步骤四、将特征存储;步骤五、过滤不关心用户;步骤六、计算用户影响力;步骤七、存储每日每个用户的影响力。优点在于:该影响力的指标增加了平均数、最高数和爆发度,平均数要求用户发布的每条微博的平均影响力都比较高,避免出现微博数大造成转发量或评论量大,最高数和爆发度分别刻画影响力传播的范围和速度,因此,新增加的指标克服以往指标中存在单一总数不能完整刻画用户影响力的缺陷,能够更深入的解释用户影响力高的原因。
-
公开(公告)号:CN108566380A
公开(公告)日:2018-09-21
申请号:CN201810212973.X
申请日:2018-03-15
Applicant: 国家计算机网络与信息安全管理中心四川分中心
CPC classification number: H04L63/10 , H04L63/0236 , H04L63/0272 , H04L63/0281 , H04L63/1408 , H04L63/30 , H04L67/025
Abstract: 本发明公开了一种代理上网行为识别与检测方法,包括:初步处理网络中数据,在数据流出时,记录目的地址不在境内的IP,在数据流入时,记录源地址不在境内的IP;将数据流出时和数据流入时记录的IP保存在存储引擎中;储存引擎中的IP数据再提供给分析引擎,供分析引擎进行分析;将标识为可疑访问会话的数据流入方向的源地址加入到应用识别引擎中去进行应用识别;调用协议验证引擎进行协议验证,若验证出有协议为伪装协议,则判定境外IP为代理服务器访问会话或者判定境外IP为代理服务器访问会话的可疑度高。本发明方法能够精准地识别使用全局代理访问出口以外网站的用户及代理服务器。
-
公开(公告)号:CN108334495A
公开(公告)日:2018-07-27
申请号:CN201810090296.9
申请日:2018-01-30
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。
-
公开(公告)号:CN105808525B
公开(公告)日:2018-06-29
申请号:CN201610186810.X
申请日:2016-03-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27
Abstract: 本发明提供一种基于相似概念对的领域概念上下位关系抽取方法,包括以下步骤:步骤1,领域概念集合由若干个领域概念组成;基于概念聚类的方法从领域概念集合中抽取相似的领域概念;步骤2,获得可能存在上下位关系的候选概念对,然后根据步骤1获取的相似概念产生相似候选概念对;步骤3,利用知识库获取部分训练数据,并通过相似候选概念对共同表征关系特征,实现基于多句特征的关系抽取,从而抽取到领域概念上下位关系。优点为:本发明可以突破语料规模的限制,利用多句特征抽取领域概念的上下位关系,可提升领域概念上下位关系抽取的准确率。
-
-
-
-
-
-
-
-
-