-
公开(公告)号:CN110134876B
公开(公告)日:2021-10-26
申请号:CN201910360276.3
申请日:2019-04-30
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/9536 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种基于群智传感器的网络空间群体性事件感知与检测方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;步骤三、对传感器账号的微博数据进行去噪处理;步骤四、对去噪后的微博数据按评论转发数进行排序;步骤五、对排序后的微博数据进行去重处理;步骤六、识别出相关事件涉及的时间地点和人物;步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。本发明通过筛选具有影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知,无需对大规模微博数据进行挖掘,有效节省了计算和时间成本。
-
公开(公告)号:CN110134876A
公开(公告)日:2019-08-16
申请号:CN201910360276.3
申请日:2019-04-30
Applicant: 国家计算机网络与信息安全管理中心 , 北京航空航天大学
IPC: G06F16/9536 , G06F16/35 , G06Q50/00
Abstract: 本发明公开了一种基于群智传感器的网络空间群体性事件感知与检测方法,属于数据挖掘领域,具体步骤如下:一、收集每日的微博流数据;步骤二、根据微博账号的影响力筛选用于感知网络空间群体性事件的传感器账号;步骤三、对传感器账号的微博数据进行去噪处理;步骤四、对去噪后的微博数据按评论转发数进行排序;步骤五、对排序后的微博数据进行去重处理;步骤六、识别出相关事件涉及的时间地点和人物;步骤七、提取与事件相关的微博数据,对该事件进行分类并计算各微博内容的敏感值。本发明通过筛选具有影响力的媒体和用户账号组成群智传感器网络对网络空间群体性事件进行感知,无需对大规模微博数据进行挖掘,有效节省了计算和时间成本。
-
公开(公告)号:CN106227768B
公开(公告)日:2019-09-03
申请号:CN201610559782.1
申请日:2016-07-15
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9536 , G06F17/27
Abstract: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。
-
公开(公告)号:CN107580022A
公开(公告)日:2018-01-12
申请号:CN201710651994.7
申请日:2017-08-02
Applicant: 国家计算机网络与信息安全管理中心
Inventor: 何能强 , 严寒冰 , 舒敏 , 丁丽 , 李佳 , 郭伟 , 林浩 , 张华 , 姜春晓 , 徐蕾 , 胡兵 , 刘杨 , 阚志刚 , 狄少嘉 , 徐原 , 何世平 , 温森浩 , 李志辉 , 姚力 , 张洪 , 朱芸茜 , 郭晶 , 朱天 , 高胜 , 胡俊 , 王小群 , 张腾 , 李挺 , 陈阳 , 李世淙 , 徐剑 , 吕利锋 , 党向磊 , 王适文 , 刘婧 , 饶毓 , 张帅 , 贾子骁 , 肖崇蕙 , 吕志泉 , 韩志辉 , 马莉雅 , 雷君 , 周彧 , 高川 , 周昊
Abstract: 本发明涉及一种数据共享系统和方法,所述系统包括:一个或多个数据中心服务器、一个或多个数据管理服务器和数据库,其中,所述数据中心服务器用于接收客户端提交的数据信息,进行数据交换以及发送客户端所需获取数据信息,并对客户端提交的数据信息,交换的数据信息以及发送客户端所需获取数据信息进行检验和评估,将客户端提交的数据信息和客户端所需获取数据信息以及对应的检验和评估结果存储在数据库中;所述数据管理服务器用于管理对应的一个或多个个数据中心服务器,并将客户端提交数据和客户端获取数据的过程信息存储到数据库中。本发明能对数据发现、共享公开审计,且还能提供可信的数据评估过程,提高了数据共享的可靠性。
-
公开(公告)号:CN109587350A
公开(公告)日:2019-04-05
申请号:CN201811373658.1
申请日:2018-11-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04M3/22 , H04W12/12 , H04W16/22 , G06F16/2458
Abstract: 本发明公开了一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法,属于数据挖掘与机器学习和商务智能领域。首先构造训练用户数据集,回溯被叫用户全部通话记录,形成各被叫用户通话序列。利用cos相似度函数,计算序列结构相似度和统计特征相似度并进行线性组合,得到加和相似度。然后通过K-Means聚类模型得到K类用户,构成独立的序列训练数据集,通过滑动时间窗口,形成K个训练集。最后在每个训练集上训练iForest模型,得到K个异常检测模型。每个被叫用户通过对应的异常检测模型识别异常,当最大值高于阈值h时,该被叫用户是高风险的被叫用户。每过固定时间段更新K-Means模型和异常检测模型。本发明缓解了数据稀疏性问题,发现基于群组的异常特征。
-
公开(公告)号:CN109274836A
公开(公告)日:2019-01-25
申请号:CN201811287123.2
申请日:2018-10-31
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种大规模数据流中电信欺诈风险识别方法,属于数据挖掘与机器学习和商务智能等领域。从呼叫记录数据库中筛选高风险被叫用户和主叫用户作为分析对象,构建欺诈被叫索引数据库,提取各个索引对应的显著特征;采用二级级联分类模型,得到每个被叫号码的攻击风险值;保留每个高风险被叫号码最近的滑动窗口异常得分的最大值,作为各自的序列风险值;构造被叫号码与主叫号码的通联关系二部图,计算每个被叫号码的通联风险值;借助逻辑回归模型,对每个被叫号码的攻击风险、序列风险和通联风险进行融合,得出每个被叫号码各自的综合风险值。本发明最终的综合风险值具有较高的稳定性和可解释性,实现较高的分类和检测效率。
-
公开(公告)号:CN107451192A
公开(公告)日:2017-12-08
申请号:CN201710508428.0
申请日:2017-06-28
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/3071 , G06K9/6267
Abstract: 本发明公开了一种基于分解聚合的电信诈骗电话的分类检测方法,属于数据挖掘、机器学习和商务智能等领域。首先对原始CDR数据进行不同正负类比例的横向划分与采样,针对某训练样本,随机抽取特定比例的特征属性用于构造基础分类器;对任一训练样本,根据基础分类器的输出结果构造分类矩阵,对各相同比例中的分类结果进行聚合,并通过最大投票法确定各类别比例下的投票结果。将各个比例分类器中的分类结果作为新的分类特征构造二级分类器,确定各正负比例的基分类器对于测试结果的权重。本发明适用于各种大数据场景下的不平衡分类,避免了不同正负类样本比例下模型精度的波动性,分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。
-
公开(公告)号:CN104778210A
公开(公告)日:2015-07-15
申请号:CN201510111754.9
申请日:2015-03-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种微博转发树和转发森林构建方法,属于数据挖掘领域,包括以下步骤:收集该条微博的原创微博信息;并且根据单条原创微博信息,获取其转发微博信息;然后在单条原创微博信息及其所有转发微博信息上,构造单条微博的微博树结构;根据用户给定时间段t3-t4内的话题关键词Topic,收集与该话题相关的全量微博信息,针对每一条微博信息,构造单条微博的微博树结构;最后汇总该话题相关的全量微博信息的转发树;形成微博转发森林。本发明的优点为:通过转发树生成算法,高效快速完整地进行转发树和转发森林的提取,具有较高的效率和效果。
-
公开(公告)号:CN109492026B
公开(公告)日:2021-11-09
申请号:CN201811301410.4
申请日:2018-11-02
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458 , G06Q50/30
Abstract: 本发明公开了一种基于改进的主动学习技术的电信欺诈分类检测方法,涉及一种基于改进的主动学习技术的电信欺诈分类检测方法。抽取数量为X的数据划分训练集和测试集。从训练集中抽取样本作为初始训练集,其余为未标记样本。若当前训练集中正类与负类样本数量的比值不小于阈值e,训练有监督分类器f并构造强组合分类器F;将未标记样本逐个放入有监督分类器f中进行类别评分,得到类别评分结果,输入主动学习采样算法,得到信息量大小的评分。选取信息量最大的前D个进行标注,并加入训练集中;当前训练集样本数量大于等于X1,或者迭代次数大于等于C时结束,输出训练好的分类器f。本发明具有较强的稳定性和鲁棒性,实现较高的分类和检测效率。
-
公开(公告)号:CN109587350B
公开(公告)日:2021-06-22
申请号:CN201811373658.1
申请日:2018-11-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458 , H04W12/12 , H04M3/22
Abstract: 本发明公开了一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法,属于数据挖掘与机器学习和商务智能领域。首先构造训练用户数据集,回溯被叫用户全部通话记录,形成各被叫用户通话序列。利用cos相似度函数,计算序列结构相似度和统计特征相似度并进行线性组合,得到加和相似度。然后通过K‑Means聚类模型得到K类用户,构成独立的序列训练数据集,通过滑动时间窗口,形成K个训练集。最后在每个训练集上训练iForest模型,得到K个异常检测模型。每个被叫用户通过对应的异常检测模型识别异常,当最大值高于阈值h时,该被叫用户是高风险的被叫用户。每过固定时间段更新K‑Means模型和异常检测模型。本发明缓解了数据稀疏性问题,发现基于群组的异常特征。
-
-
-
-
-
-
-
-
-