-
公开(公告)号:CN103729474B
公开(公告)日:2017-07-21
申请号:CN201410032746.0
申请日:2014-01-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
-
公开(公告)号:CN105045857A
公开(公告)日:2015-11-11
申请号:CN201510401458.2
申请日:2015-07-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/35
Abstract: 本发明公开了一种社交网络谣言识别方法及系统,该方法包括获取微博信息例,并获取所述微博信息例的微博信息与用户信息,根据所述微博信息与所述用户信息,提取所述微博信息例的微博内容特征,所述微博内容特征包括浅层文本特征与微博深层隐含特征;根据所述用户信息,提取所述用户的基本属性特征与用户深层隐含特征,根据所述微博信息提取所述微博的微博流行度特征,所述微博流行度特征包括基于流行度及流行度趋势的波动性特征与差异性特征以及转发特征;根据所述浅层文本特征、所述微博深层隐含特征、所述基本属性特征、所述用户深层隐含特征、所述微博流行度特征,构建特征向量,训练分类器,将所述特征向量输入所述分类器并输出结果。
-
公开(公告)号:CN104933622A
公开(公告)日:2015-09-23
申请号:CN201510109475.9
申请日:2015-03-12
Applicant: 中国科学院计算技术研究所
IPC: G06Q50/00
Abstract: 本发明涉及社交网络分析领域,特别涉及一种基于用户和微博主题的微博流行度预测方法及系统,该方法包括:获取预设时间段内的微博数据和用户数据,根据所述微博数据和所述用户数据,获取用户属性特征和微博主题特征,将所述用户属性特征进行归一化处理,以处理后的所述用户特征进行用户聚类,并根据聚类结果,获取用户的类别信息;根据所述微博主题特征和所述用户的类别信息,获取用户聚类在所述微博主题下的转发特征,并计算所述用户聚类在所述微博主题下的权重系数;根据所述微博主题特征、所述用户属性特征、所述权重系数,构建微博流行度预测模型,通过所述微博流行度预测模型对微博流行度进行预测。
-
公开(公告)号:CN103853823A
公开(公告)日:2014-06-11
申请号:CN201410065743.7
申请日:2014-02-26
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。
-
公开(公告)号:CN103824115A
公开(公告)日:2014-05-28
申请号:CN201410072412.6
申请日:2014-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06N5/04
Abstract: 本发明提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。
-
公开(公告)号:CN101702720B
公开(公告)日:2012-09-05
申请号:CN200910235890.3
申请日:2009-10-28
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种伪装攻击检测中的模型训练方法,包括:由合法用户正常行为的训练数据中的shell命令短序列生成多个具有不同长度的shell命令短序列流;一个所述shell命令短序列流包括有具有某一特定长度的shell命令短序列,所述长度为所述shell命令短序列中所含shell命令符号的个数;在各个shell命令短序列流中计算所含shell命令短序列在所在短序列流中的支持度;将shell命令短序列的支持度大小与所在shell命令短序列流的最小支持度参数进行比较,去除各个shell命令短序列流中支持度小于最小支持度参数的shell命令短序列,从而得到用于描述合法用户正常行为的序列库。本发明具有适应性广、稳定性高、容错能力强、检测准确度较高的优点。
-
公开(公告)号:CN101464907A
公开(公告)日:2009-06-24
申请号:CN200910076589.2
申请日:2009-01-09
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本xj;2)根据训练集中的样本x计算文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;3)将文本xj投影到该k个方向,表示为(xj,1N,…,xj,iN,…,xj,kN),其中1≤i≤k;4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;5)根据所述(xj,1N,…,xj,iN,…,xj,kN)和所述尺度相关统计量,计算所述文本xj的新的表示(xj,1R,…,xj,iR,…,xj,kR)。根据本发明的文本维度压缩及尺度调整方法对文本空间进行处理,不仅降低了语料的维度,还使语料的分布更为合理,该方法的应用使文本分类的精度有效提高。
-
公开(公告)号:CN103853823B
公开(公告)日:2017-01-18
申请号:CN201410065743.7
申请日:2014-02-26
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向在线百科的实体属性抽取方法及系统,该方法包括:在待抽取的在线百科网页文本集合T中选择一个页面,抽取该页面的实体属性表达规则,得到当前规则集合。该方法还包括使用当前规则集合对所述待抽取的在线百科网页文本集合T进行实体属性抽取,并且根据抽取得到的实体属性抽取T的实体属性表达规则,用抽取得到的规则集合作为当前规则集合并重复这一过程k次,得到最终规则集合。使用所述最终规则集合对T进行实体属性抽取。本发明提供的实体属性抽取方法能够适应文本结构的变化,适用于各种在线百科,具有召回率高并且准确率高的效果。
-
公开(公告)号:CN103258248B
公开(公告)日:2016-12-07
申请号:CN201310190225.3
申请日:2013-05-21
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种微博流行趋势预测方法、装置及系统。所述方法包括:获得微博用户群体行为特征描述,所述微博用户群体行为特征描述表征用户发布微博的行为特征以及微博转发和评论中用户的行为特征。所述方法还包括:根据微博发布后第1至i-1个时间间隔的转发和评论数量,以及所述微博用户群体行为特征描述,计算所述微博在第i个时间间隔的转发和评论数量,其中i为大于1的正整数。本发明从时间维度出发,对微博用户的群体行为特征进行描述,在保证微博流行趋势预测的准确性以及效率的同时还可以在线实时进行预测。
-
公开(公告)号:CN103823868A
公开(公告)日:2014-05-28
申请号:CN201410066711.9
申请日:2014-02-26
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30616 , G06F17/30707
Abstract: 本发明提供一种面向在线百科的事件识别方法和事件关系抽取方法。所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条。本发明能够快速且准确地识别出事件类词条,并且能够在事件识别的基础上进行事件关系的抽取,适用于对事件进行预测和溯源。
-
-
-
-
-
-
-
-
-