-
公开(公告)号:CN103618725B
公开(公告)日:2018-11-09
申请号:CN201310645762.2
申请日:2013-12-04
Applicant: 中国科学院计算技术研究所
IPC: H04L29/06
Abstract: 本发明提供一种KAD网络资源信息的获取方法及系统。该方法包括:在KAD网络的节点ID空间内选取n个均匀分布的节点ID,构造相应的n个模拟节点加入所述KAD网络,其中n为正整数。由所述模拟节点监听所述KAD网络,以及由所述模拟节点解析其他节点发来的资源信息存储请求消息并且获取资源信息。本发明在加快信息获取速度的同时,可以较全面地得到KAD网络中的资源信息。
-
公开(公告)号:CN104866558B
公开(公告)日:2018-08-10
申请号:CN201510252840.1
申请日:2015-05-18
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种社交网络账号映射模型训练方法,包括:1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集;2)对每一个账号组合提取账号组合特征向量,包括:该账号组合中两个账号各自的文本特征,两个账号在各自所属微博中的社交关系特征,以及两个账号的扩展共同邻居特征,扩展共同邻居是两个账号各自的邻居账号中,那些已知属于同一个自然人的邻居账号对;3)基于机器学习技术进行训练得到社交网络账号映射模型。本发明还提供了相应的社交网络账号映射方法及系统。本发明能够减少关系数据稀疏性对映射结果的不利影响,有效地提高社交网络账号映射的准确率。
-
公开(公告)号:CN104933139B
公开(公告)日:2018-06-01
申请号:CN201510337334.2
申请日:2015-06-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种社交网络用户身份虚实映射的方法及装置,涉及网络数据挖掘技术,能够较准确地推测出社交网络中个体用户的真实身份。所述方法包括:获取身份待定用户的三度好友并生成相应的社交网络拓扑结构图,所述三度好友包括所述身份待定用户的好友、好友的好友以及好友的好友的好友;在所述社交网络拓扑结构图中查找完全子图;根据所述完全子图中各身份已知的好友的身份特征属性,确定所述身份待定用户的身份特征属性。
-
公开(公告)号:CN104346425B
公开(公告)日:2017-10-31
申请号:CN201410363667.8
申请日:2014-07-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络应急技术处理协调中心
Abstract: 本发明公开了一种层次化的互联网舆情指标体系的方法及系统,该方法包括建立该指标体系的层次化架构,包括最上层的整体态势指标、位于该整体态势指标下层的中间层五大维度细分指标、位于该中间层五大维度细分指标下层的下层指标、位于最底层的底层基础指标,其中该中间层五大维度细分指标包括通道指标、主题指标、行业指标、信息源指标、地域指标;设定指标的数值范围,计算该指标体系中每层指标的指标数值,并使这些该指标数值落入该数值范围内,且该指标数值越大,则指标代表的业务的受关注程度越高,其中根据基础数据集合计算该底层基础指标的该指标数值,该基础数据集合包括互联网信息要素集合、数据库中数据字段集合。
-
公开(公告)号:CN107181730A
公开(公告)日:2017-09-19
申请号:CN201710145302.1
申请日:2017-03-13
Applicant: 烟台中科网络技术研究所 , 中国科学院计算技术研究所
IPC: H04L29/06
Abstract: 本发明公开了一种仿冒网站监测识别方法及系统,方法包括:S1、分别对被仿冒网站和待检测网站进行页面解析,得到解析后的被仿冒网页和待检测网页;S2、分别对解析后的被仿冒网页和待检测网页进行特征提取,得到被仿冒网页和待检测网页的网页特征;S3、计算被仿冒网页与待检测网页的网页特征的相似性,得到对应于网页特征中所有特征的所有计算结果;S4、对所有计算结果进行集成汇总,得到集成汇总结果;S5、将集成汇总结果与预设阈值进行比较,如果集成汇总结果大于预设阈值,则待检测网站为仿冒网站。本发明的有益效果是:同时考虑了网页URL、网页内容以及网页图像的相似性,并对三个相似性进行集成汇总,提高对仿冒网站进行识别的准确性。
-
公开(公告)号:CN103778200B
公开(公告)日:2017-08-08
申请号:CN201410010836.X
申请日:2014-01-09
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。
-
公开(公告)号:CN103729474B
公开(公告)日:2017-07-21
申请号:CN201410032746.0
申请日:2014-01-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
-
公开(公告)号:CN105975504A
公开(公告)日:2016-09-28
申请号:CN201610273082.6
申请日:2016-04-28
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F16/951 , G06N3/0454 , G06N3/08 , G06Q50/01
Abstract: 本发明提出一种基于循环神经网络(Recurrent Neural Network,RNN)的社交网络消息爆发检测方法及系统,涉及在线社交网络中内容的流行度预测技术领域,该方法包括获取社交网络中用户发布与转发的历史消息,对所述历史消息进行预处理,获取历史转发时间序列;对所述历史消息与所述历史转发时间序列进行循环神经网络训练,并生成预测模型;实时采集用户发布与转发的消息,根据所述消息,生成转发时间序列,将所述转发时间序列输入到所述预测模型,生成特征表达,将所述特征表达输入到全连接神经网络进行分类,结果以softmax方式输出,以完成社交网络消息爆发检测。
-
公开(公告)号:CN103268339B
公开(公告)日:2016-06-01
申请号:CN201310182978.X
申请日:2013-05-17
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。
-
公开(公告)号:CN103258052B
公开(公告)日:2016-03-30
申请号:CN201310204314.9
申请日:2013-05-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种eMule网络上关联资源的发现方法,包括下列步骤:1)获取用户设置的初始的关键词列表;2)对于当前关键词列表中的每个关键词,在eMule网络中搜索与该关键词相关的资源文件,并记录搜索到的资源文件信息;3)对进行了记录的资源文件的文件名进行分词处理,并将分词得到的新词加入关键词列表中,然后重新执行步骤2);重复执行步骤2)至3)直到满足结束条件。本发明能够全面地发现eMule网络中潜在的用户感兴趣的资源,还能够帮助用户发现特定领域相关的潜在的用户感兴趣的资源。
-
-
-
-
-
-
-
-
-