-
公开(公告)号:CN103995853A
公开(公告)日:2014-08-20
申请号:CN201410198519.5
申请日:2014-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明公开了一种基于关键句的多语言情感数据处理分类方法及系统,方法包括:步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法和投票规则来最终判定情感词的极性;步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后再综合考虑位置属性和关键词属性,自动为每一篇文本抽取若干句情感关键句;步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数据分类中。由此解决多语言翻译时语言迁移和情感数据分析的双重难点问题,以提高情感数据分析的准确性。
-
公开(公告)号:CN103870506A
公开(公告)日:2014-06-18
申请号:CN201210548678.4
申请日:2012-12-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30929
Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。
-
公开(公告)号:CN103823879A
公开(公告)日:2014-05-28
申请号:CN201410072608.5
申请日:2014-02-28
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30345 , G06F17/30634
Abstract: 本发明提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。
-
公开(公告)号:CN102426610B
公开(公告)日:2014-05-07
申请号:CN201210010315.5
申请日:2012-01-13
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种微博排名方法,该方法首先计算消息的实时性权值和消息作者影响力权值,然后将二者的加权平均值作为该消息的排名值,并基于所计算的排名值对消息进行排序。该方法通过将微博作者权威性和消息实时性相结合来进行排名,提高了当前微博检索结果的精确度。而且计算微博作者的影响力计算的方法简单高效,还适用于对微博系统中得用户进行权威性或者影响力排名。
-
公开(公告)号:CN103745105A
公开(公告)日:2014-04-23
申请号:CN201410005723.0
申请日:2014-01-06
Applicant: 中国科学院计算技术研究所
IPC: G06F19/00
Abstract: 本发明提供一种社交网络中用户属性的预测方法及系统,所述方法包括:统计一段时间内每个时刻对用户影响力最大的N个好友,其中N为正整数;以及根据每个时刻对用户影响力最大的N个好友在每个时刻的属性来预测将来时刻所述用户的属性。在地理位置社交网络数据集上的实验数据表明,本发明提供的社交网络中用户属性的预测方法及系统可提高用户属性预测的准确性。
-
公开(公告)号:CN103745014A
公开(公告)日:2014-04-23
申请号:CN201410042782.5
申请日:2014-01-29
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06Q50/01 , G06F17/3087
Abstract: 本发明提供一种社交网络用户虚实映射方法和系统,所述方法包括:根据社交网络用户的唯一标识获取该社交网络用户的地理位置信息,并且获取该地理位置信息对应的地理位置的周边单位名称列表;以及将所述周边单位名称列表中的每个单位名称与所述社交网络用户发布的消息内容进行匹配,根据匹配程度选择一个或多个单位名称。本发明可根据社交网络用户的唯一标识将该用户映射到一个或多个工作单位,提高了社交网络用户虚实映射的精确度。
-
公开(公告)号:CN103729474A
公开(公告)日:2014-04-16
申请号:CN201410032746.0
申请日:2014-01-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30705 , G06F17/30861
Abstract: 本发明提供了一种用于识别论坛用户马甲账号的方法。该方法基于训练集中各用户账号及每个文本的特征向量来训练分类模型,利用训练好的分类模型确定测试集中每个文本被分类到训练集中哪个用户账号,然后基于所述分类结果来识别马甲账号。该方法从论坛用户账号发言的文本数据中选取特征,通过挖掘账号的语言风格的相似性来判断属于同一人的多个账号间的关系,提高了识别马甲账号的概率。而且针对网络语言的语法不严谨,并且有许多的网络用语的特点,通过提取用户发言文本中有效的特征进行分析,规避了词库更新内容和速度跟不上网络语言的流行等问题,减少了维护分词词典的复杂操作,提高了马甲识别的准确率。
-
公开(公告)号:CN103631949A
公开(公告)日:2014-03-12
申请号:CN201310674521.0
申请日:2013-12-11
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30964
Abstract: 本发明提供一种社交网络数据采集方法和系统,所述方法包括根据用户资料和用户过去一段时间的数据更新信息,将该用户归于预先设定的多个用户组中的一个,得到该用户组的数据更新分布向量。其中,每个用户组中用户的用户资料和数据更新信息相似,用户组的数据更新分布向量体现该用户组中所有用户在一个时间区间内所有时间片段的数据更新行为。所述方法还包括根据所述用户组的数据更新分布向量,制定该用户在一个时间区间内不同时间片段的数据采集策略。本发明可针对不同的用户制定不同的实时数据采集策略,提高了社交网络数据采集的实时性和效率。
-
公开(公告)号:CN103488623A
公开(公告)日:2014-01-01
申请号:CN201310397617.7
申请日:2013-09-04
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明公开了一种自学习的涉及多语言数据处理分类方法,包括通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取;步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对情感词和情感文本同时进行支持或反对聚类;通过半监督学习构建情感分类器,先从聚类的结果中挑选确信的样本训练初始分类器,然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。本发明提出的面向多语言倾向性分析的方法是语言无关的,无需借助机器翻译系统和大规模双语词典,直接在目标语言上学习情感分类器,具有最小资源依赖性,对于每种目标语言,仅仅需要三个种子词而不需要其他先验知识。
-
公开(公告)号:CN103354554A
公开(公告)日:2013-10-16
申请号:CN201310204527.1
申请日:2013-05-28
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种用于eMule网络的文件资源信息采集方法,包括下列步骤:1)初始化文件集合;2)遍历所述文件集合,对于每个文件,搜索共享过该文件的活跃客户端的地址信息,得到活跃客户端集合;3)对于活跃客户端集合中的每个活跃客户端,探测该活跃客户端所共享的文件列表;4)根据所探测的活跃客户端所共享的文件列表,更新所述文件集合,返回执行步骤2);重复执行所述步骤2)~4),得到文件索引表,该文件索引表中记录出现在所述文件集合中的每个文件及其对应的活跃客户端地址信息。本发明能够全面获取eMule网络上所有文件的索引;能够获得eMule网络中各个文件资源的活跃度信息,从而为进一步的监控提供依据。
-
-
-
-
-
-
-
-
-