-
公开(公告)号:CN108846017A
公开(公告)日:2018-11-20
申请号:CN201810426304.2
申请日:2018-05-07
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
Abstract: 本发明一种基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法,包括如下步骤:S1.进行Word Embedding的字级别语义特征表示;S2.构建注意力权重的Bi-GRU字级别的句子特征编码模型;S3.搭建基于注意力权重的Bi-GRU句子级别特征编码模型;S4.使用分层Softmax实现端到端分类实现。本发明方法可降低向量的维度,且有效地防止特征过于稀疏问题。优化了最终的输出向量,增强了模型特征编码有效性。避免维度过高造成的模型难以训练问题,又提供了额外的语义信息。可灵活组合特征抽取模型和各种常见分类器,方便更换调试分类器。计算复杂度比Softmax从|K|降低到log|K|。
-
公开(公告)号:CN108804594A
公开(公告)日:2018-11-13
申请号:CN201810523561.8
申请日:2018-05-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京天润基业科技发展股份有限公司
IPC: G06F17/30
Abstract: 本发明涉及一种新闻内容全文检索引擎的构建方法及装置,该方法步骤如下:获取带有实时访问信息的实时网站日志;获取带有新闻热度评论信息的新闻网站的数据;对所述实时网站日志和所述新闻网站数据分类;对分类后的所述新闻网站数据进行处理、索引并存储;获取新闻网站数据中国的新闻元信息并存储;获取新闻网站数据中的热度信息进行存储,并对新闻网站数据中的热度信息统计。本发明在查询性能、索引空间和构建性能方面实现了合理的平衡;考虑到统计数据随时间变化的特性,动态更新索引结果;提高了系统的健壮性;提高统计数据与文本数据的复合查询性能。
-
公开(公告)号:CN109145109B
公开(公告)日:2022-06-03
申请号:CN201710464424.7
申请日:2017-06-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/2458 , G06Q50/00
Abstract: 本发明涉及一种基于社交网络的用户群体消息传播异常分析方法和装置,包括:获取在线社交网络中用户群体的历史聊天记录,根据预先设定的时间跨度,获取历史聊天记录在时间跨度内用户群体中所有用户所发布的消息,作为消息集合;对于消息集合,根据预先设定的时间范围统计用户群体在每个时间范围内所发布的消息总数;基于时序相关性的特征提取法,对每个消息总数的特征进行提取,并将提取结果集合为样本集合;根据消息总数并采用聚类算法为样本集合对样本集合进行聚类,生成异常样本;根据异常样本判定其所在的用户群体存在消息传播异常。由此本发明能够应对数据涌发现象,同时算法直观简单,准确率更高,且本发明应用场景广泛。
-
公开(公告)号:CN108733763B
公开(公告)日:2022-05-17
申请号:CN201810338555.5
申请日:2018-04-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535
Abstract: 本发明公开了一种基于微博热门事件计算关键节点的方法,包括:获取历史热门事件的转发数、评论数、点赞数和阅读数,定义热门值,并确定热门临界值;获取历史热门事件的初步关键博主,获取作为初步关键传播时间,建立关键传播时间的计算公式;获取目标事件的转发数、评论数、点赞数和阅读数,若目标事件的热门值达到热门临界值,则计算出目标事件的的关键传播时间,获得关键时间点;选取在关键时间点附近发微博的若干博主,获取其中与其它博主关联次数最多的博主,即为目标事件的关键博主。本发明还提供了基于微博热门事件计算关键节点的装置。本发明能够在微博热门事件在不可控地爆发之前,找到推动此事件的关键博主,从而使得事件得以控制。
-
公开(公告)号:CN108429649B
公开(公告)日:2020-11-06
申请号:CN201810244277.7
申请日:2018-03-23
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L12/24
Abstract: 本发明公开了一种基于多次单类型采集结果的综合异常判断系统,涉及网络预警技术领域。所述系统包括:阈值生成单元和异常判断单元;所述阈值生成单元,在从被采集系统上获取到的采集数据的基础上,计算判断阈值;所述异常判断单元,在所述判断阈值和所述采集数据的基础上,判断被采集系统运行是正常还是异常。本发明所述系统对采集到的数据进行多种方式进行判断,从而在不接触被监测系统后台日志或硬件数据的情况下准确识别出被检测系统的运行状况,解决了因使用平均值计算抗干扰性太弱,固定阈值判断性能太差,阈值波动范围设置方案单一且低效的问题。
-
公开(公告)号:CN106557552B
公开(公告)日:2020-08-21
申请号:CN201610958001.6
申请日:2016-10-27
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/9535 , G06F16/335 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种网络话题热度预测方法。它包括话题检测、热度预测建模、预测热度值计算三个步骤。话题检测部分负责从网络数据中获取与用户给定话题关键词相关的话题数据。预测建模部分按照用户设定的时间粒度大小统计话题检测结果中每个时间段内的话题热度值,并计算高斯过程模型关于话题热度统计时间点的协方差矩阵,构建基于高斯过程的预测模型。预测热度值计算部分针对用户给定的预测时间点,利用构建的高斯过程模型计算话题在给定时间点的热度值。本发明综合利用信息检索技术、分类技术进行话题检测,利用高斯过程模型来进行话题热度预测,提高了话题预测的实用性和有效性。
-
公开(公告)号:CN106126606B
公开(公告)日:2019-08-20
申请号:CN201610453319.9
申请日:2016-06-21
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458 , G06F16/33
Abstract: 本发明公开了一种短文本新词发现方法。本方法为:1)从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);2)取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);3)计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。本发明大大提高了新词发现的准确率。
-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN108804527A
公开(公告)日:2018-11-13
申请号:CN201810400819.5
申请日:2018-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 北京蓝光汇智网络科技有限公司
Abstract: 本发明公开了一种基于微信区域朋友圈数据分析系统,包括:账户采集模块,账户消重模块,账户存储模块;信息采集模块,用于连续多次采集该限定区域内的朋友圈可见信息;信息消重模块,过滤掉该限定区域内在该次采集的朋友圈可见信息中以前已经出现过的朋友圈可见信息,得到新的朋友圈可见信息;信息存储模块,用于接收并储存新的朋友圈可见信息。本发明还公开了一种基于微信区域朋友圈数据分析方法。本发明实现了对限定区域内的所有微信用户的朋友圈可见信息进行了全面的分析,及时监测舆情,有效预警突发事件,防患于未然。
-
-
-
-
-
-
-
-
-