-
公开(公告)号:CN106170002B
公开(公告)日:2019-07-02
申请号:CN201610809596.9
申请日:2016-09-08
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
Abstract: 本发明公开了一种中文仿冒域名检测方法及系统,适用于检测利用形近字构造的中文仿冒域名。主要包括:用于统计每个输入域名的长度和总笔画数的域名预处理模块;对比待检测域名与目标域名的长度和总笔画数,过滤出可能被仿冒的目标域名集合的目标域名过滤模块;将待检测域名与过滤出的目标域名对应拆分为单个汉字的域名拆分模块;将汉字转化为笔画顺序的字符串并基于字符串编辑距离计算单字相似度的单字相似度计算模块;基于单字相似度计算整体域名相似度的域名相似度计算模块;基于域名相似度判定并输出最可能被仿冒的目标域名的仿冒域名决策模块。通过以上方法及系统可有效识别利用形近字构造的中文仿冒域名,在网络安全领域具有广泛的应用前景。
-
公开(公告)号:CN106375288B
公开(公告)日:2019-06-25
申请号:CN201610751260.1
申请日:2016-08-29
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种中文域名相似度计算方法及仿冒域名检测方法。本方法为:1)分别生成待测域名d1、目标域名d2的中文字符集合set1、set2;2)根据集合set1、set2中字符数的比较结果确定计算标志flag的值并确定集合set1、set2中所包含的n组相似字符对以及每组相似字符对的相似度;3)根据形近字变换对待测域名d1、目标域名d2的影响值,以及字序交换对待测域名d1、目标域名d2的影响值,计算域名d1与域名d2的整体相似度值。如果整体相似度值大于设定阈值,则判定域名d1为域名d2的仿冒域名。本发明可有效检测出基于形近字替换、基于字序交换的中文仿冒域名,在网络安全领域具有广泛的应用前景。
-
公开(公告)号:CN103812872B
公开(公告)日:2016-11-23
申请号:CN201410073426.X
申请日:2014-02-28
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示构成用户的历史行为向量,构成待聚类用户数据集;对待聚类用户数据集中的历史行为向量进行聚类,得到至少一个分类用户行为集合;将所有分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,得到序列数据库;模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;水军判断模块比较每个事务序列模式,就可以判断出哪个分类用户行为集合是水军账号。本发明很容易分辨出哪一类属于水军账号。
-
公开(公告)号:CN104008150B
公开(公告)日:2017-07-07
申请号:CN201410213602.5
申请日:2014-05-20
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种对社交网络信息传播趋势预测的方法及系统,包括获取社交网络中的信息数据和用户数据,利用用户数据计算出用户类别分布向量;对信息数据进行归一化处理;利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion‑Info用户类别分布向量计算出信息传播趋势的预测点,绘制信息传播趋势线;将通过K‑SC算法得到的若干基本信息传播曲线与信息传播趋势线拟合,获取信息传播趋势预测线的后续趋势线;本发明能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮助;同时本发明的系统在运行时内存代价低,拥有很高的效率,拥有独立性和可移植性。
-
公开(公告)号:CN103745002A
公开(公告)日:2014-04-23
申请号:CN201410035139.X
申请日:2014-01-24
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/30861 , G06N3/088
Abstract: 本发明涉及一种基于行为特征与内容特征融合的水军识别方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据;利用马尔可夫链蒙特卡罗随机模型进行行为特征维度和内容特征维度的融合,组成用户特征向量;利用用户特征向量进行DBN模型训练,得到DBN模型;对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束;否则根据检测结果生成相应的调节命令,分别调节特征融合阶段和DBN模型训练阶段的相关参数;在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。
-
公开(公告)号:CN104281882B
公开(公告)日:2017-09-15
申请号:CN201410472689.8
申请日:2014-09-16
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供了基于用户特征的预测社交网络信息流行度的方法,该方法包括:获取社交网络中的用户数据和信息数据;从用户数据中提取部分用户属性特征及用户行为特征;根据用户属性特征和用户行为特征将用户数据进行分类;根据信息数据及用户的类别,得到信息数据对应的用户传播特征;根据用户传播特征得到社交网络信息流行度预测模型,采用预测模型对信息流行度进行预测。本发明提供的基于用户特征的预测社交网络信息流行度的系统,包括获取模块、特征提取模块、分类模块、处理模块、预测模型模块及预测模型。本发明结合用户行为特征的特点,更加准确地预测社交网络的信息传播,解决热点发现滞后、信息推送以及网络舆情监测实时性难以保证的问题。
-
公开(公告)号:CN103927340B
公开(公告)日:2017-06-27
申请号:CN201410119505.X
申请日:2014-03-27
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种密文检索方法,在客户端实现层次聚类的创建和索引的加密,服务器接收密文查询向量,通过基于层次聚类的密文索引可计算出各个文档向量和查询向量之间的相关度分数,并且根据该相关度分数实现文档排序功能,由于查询过程中没有查询所有的密文文档向量,而是搜索特定聚类内部的文档向量,所以查询时间大大减少,提高了密文检索效率。本发明支持多关键字可排序的密文检索,支持大数据量下的密文检索,同时,有效保护了数据隐私。
-
公开(公告)号:CN106375288A
公开(公告)日:2017-02-01
申请号:CN201610751260.1
申请日:2016-08-29
Applicant: 中国科学院信息工程研究所
CPC classification number: H04L63/1491 , G06F17/2765 , G06K9/6215 , H04L61/1511 , H04L63/1483
Abstract: 本发明公开了一种中文域名相似度计算方法及仿冒域名检测方法。本方法为:1)分别生成待测域名d1、目标域名d2的中文字符集合set1、set2;2)根据集合set1、set2中字符数的比较结果确定计算标志flag的值并确定集合set1、set2中所包含的n组相似字符对以及每组相似字符对的相似度;3)根据形近字变换对待测域名d1、目标域名d2的影响值,以及字序交换对待测域名d1、目标域名d2的影响值,计算域名d1与域名d2的整体相似度值。如果整体相似度值大于设定阈值,则判定域名d1为域名d2的仿冒域名。本发明可有效检测出基于形近字替换、基于字序交换的中文仿冒域名,在网络安全领域具有广泛的应用前景。
-
公开(公告)号:CN106170002A
公开(公告)日:2016-11-30
申请号:CN201610809596.9
申请日:2016-09-08
Applicant: 中国科学院信息工程研究所
IPC: H04L29/06
CPC classification number: H04L63/1491 , H04L63/1416 , H04L63/1441
Abstract: 本发明公开了一种中文仿冒域名检测方法及系统,适用于检测利用形近字构造的中文仿冒域名。主要包括:用于统计每个输入域名的长度和总笔画数的域名预处理模块;对比待检测域名与目标域名的长度和总笔画数,过滤出可能被仿冒的目标域名集合的目标域名过滤模块;将待检测域名与过滤出的目标域名对应拆分为单个汉字的域名拆分模块;将汉字转化为笔画顺序的字符串并基于字符串编辑距离计算单字相似度的单字相似度计算模块;基于单字相似度计算整体域名相似度的域名相似度计算模块;基于域名相似度判定并输出最可能被仿冒的目标域名的仿冒域名决策模块。通过以上方法及系统可有效识别利用形近字构造的中文仿冒域名,在网络安全领域具有广泛的应用前景。
-
公开(公告)号:CN104008150A
公开(公告)日:2014-08-27
申请号:CN201410213602.5
申请日:2014-05-20
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/3089 , G06Q50/01
Abstract: 本发明涉及一种对社交网络信息传播趋势预测的方法及系统,包括获取社交网络中的信息数据和用户数据,利用用户数据计算出用户类别分布向量;对信息数据进行归一化处理;利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出信息传播趋势的预测点,绘制信息传播趋势线;将通过K-SC算法得到的若干基本信息传播曲线与信息传播趋势线拟合,获取信息传播趋势预测线的后续趋势线;本发明能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮助;同时本发明的系统在运行时内存代价低,拥有很高的效率,拥有独立性和可移植性。
-
-
-
-
-
-
-
-
-