-
公开(公告)号:CN106503256B
公开(公告)日:2019-05-07
申请号:CN201611005521.1
申请日:2016-11-11
Applicant: 中国科学院计算技术研究所
IPC: G06F16/9535 , G06F16/9536 , G06Q50/00
Abstract: 本发明提供一种基于社交网络文档的热点信息挖掘方法,包括下列步骤:1)根据词项在热度统计窗口内的权重相对于该词项在语料库中的基准权重的波动程度,得出该词项在热度统计窗口内的热度;2)基于各个词项的热度排序,得出当前热度统计窗口内的热点词项。本发明能够提高社交网络中挖掘候选词的准确率;能够获得更准确的表达社交网络热点事件的语义。
-
公开(公告)号:CN103324662B
公开(公告)日:2016-12-28
申请号:CN201310134433.1
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。
-
公开(公告)号:CN103167029B
公开(公告)日:2016-08-03
申请号:CN201310070486.1
申请日:2013-03-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种eMule网络上特定资源的发现方法,包括下列步骤:1)针对所关注的关键词,构造与其对应的KAD虚拟节点,所构造的KAD虚拟节点的ID值与相应关键词的MD4哈希值相同或接近,使得二者的异或距离远远小于KAD真实节点ID之间的通常异或距离;2)对KAD虚拟节点进行初始化,使eMule网络的其它节点感知到所构造的KAD虚拟节点;3)利用所述的KAD虚拟节点监听涉及相应关键词的特定资源的资源发布消息。本发明有助于更全面地获取eMule网络特定资源的信息;时效性强,能够快速发现新发布的特定资源;能够对新出现而又危害巨大的特定资源做出迅速反应;在监控的同时,能够保证eMule网络的正常运作。
-
公开(公告)号:CN103279483B
公开(公告)日:2016-04-13
申请号:CN201310143846.6
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客的话题流行范围评估方法及系统,其中方法包括:S1,采集微博客平台的历史数据,提取多个话题及多个消息,进行合并操作获得多个合并消息,然后将发布或者转发同一个合并消息的用户构建一个社区,获得多个社区,基于多个社区的重合程度进行话题的归类,提取同一类别中话题的特征;S2,获取微博客平台的实时数据,提取新话题及多个新消息,进行合并操作获得多个新合并消息,将发布或者转发同一个新合并消息的用户构建一个新社区,获得多个新社区,基于多个新社区的重合程度进行新话题的归类,提取同一类别中新话题的新特征;S3,将所述特征与所述新特征进行匹配,获得目标话题,对所述目标话题的流行范围进行评估。
-
公开(公告)号:CN103064966B
公开(公告)日:2016-01-27
申请号:CN201210592795.0
申请日:2012-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。
-
公开(公告)号:CN103150382B
公开(公告)日:2015-04-01
申请号:CN201310081984.6
申请日:2013-03-14
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念,并且基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵,这使得该矩阵的构造和计算方便,而且克服了目录信息粒度比较粗,歧义多的问题。而且在语义概念扩展阶段,采用基于上下文的语义相似度计算方法来进行语义概念扩展,同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性,提高了语义概念扩展的准确性。
-
公开(公告)号:CN104298732A
公开(公告)日:2015-01-21
申请号:CN201410514028.7
申请日:2014-09-29
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。
-
公开(公告)号:CN103870506A
公开(公告)日:2014-06-18
申请号:CN201210548678.4
申请日:2012-12-17
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30929
Abstract: 本发明公开了一种网页信息的抽取方法和系统。包括:获得已标注网页,生成语义结构树,构建信息模式图,生成信息模式图中每个语义属性节点的语义属性节点信息,生成包装器,将包装器导出为包装器文件;构建用于抽取已标注网页的同类网页的抽取器;获得待抽取网页,抽取器在待抽取网页的DOM树中,从信息模式图的根语义属性节点开始逐层递归抽取信息模式图的每个语义属性节点对应的抽取数据区或者抽取迭代数据区;导出每个语义属性节点对应的抽取数据区或者抽取迭代数据区中的数据作为抽取结果。本发明具有较高的通用性、泛化能力、容错性、可扩展性以及较低的人工参与度,同时本发明也保证了在线抽取的效率,从而具有较高的实用性。
-
公开(公告)号:CN103354554A
公开(公告)日:2013-10-16
申请号:CN201310204527.1
申请日:2013-05-28
Applicant: 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明提供一种用于eMule网络的文件资源信息采集方法,包括下列步骤:1)初始化文件集合;2)遍历所述文件集合,对于每个文件,搜索共享过该文件的活跃客户端的地址信息,得到活跃客户端集合;3)对于活跃客户端集合中的每个活跃客户端,探测该活跃客户端所共享的文件列表;4)根据所探测的活跃客户端所共享的文件列表,更新所述文件集合,返回执行步骤2);重复执行所述步骤2)~4),得到文件索引表,该文件索引表中记录出现在所述文件集合中的每个文件及其对应的活跃客户端地址信息。本发明能够全面获取eMule网络上所有文件的索引;能够获得eMule网络中各个文件资源的活跃度信息,从而为进一步的监控提供依据。
-
公开(公告)号:CN103324662A
公开(公告)日:2013-09-25
申请号:CN201310134433.1
申请日:2013-04-18
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会媒体事件的动态观点演变的可视化方法,该方法首先确定所采集的社会媒体事件信息集合中信息的情感隶属度和情感分类,然后基于所述信息的情感分类,建立情感可视化图形的几何布局并基于所述信息的情感隶属度对所建立的几何布局进行着色。该方法可以直观的显示信息流中事件的情感变化,在事件的变化和发展方面可以显示更多的情感信息,能够帮助用户更好的识别事件的转折点和爆发点,预测事件的发展趋势。
-
-
-
-
-
-
-
-
-