-
公开(公告)号:CN103279482A
公开(公告)日:2013-09-04
申请号:CN201310143346.2
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客平台的社交朋友圈的挖掘方法及系统,其方法包括:步骤1,通过微博客平台所提供的数据接口得到待查看用户的朋友列表;步骤2,针对所述朋友列表中的每个朋友用户,通过微博客平台所提供的数据接口得到所述每个朋友用户的朋友列表;步骤3,计算所述待查看用户的朋友列表与所述每个朋友用户的朋友列表的邻里相似度;步骤4,取出邻里相似度大于指定阈值的朋友用户,作为所述待查看用户的现实朋友用户;步骤5,计算所述待查看用户与所述现实朋友用户所构成的有向连通图中的最强连通子图,所获得的每个最强连通子图构成所述待查看用户的社交朋友圈。本发明能够在海量用户中挖掘社交朋友圈。
-
公开(公告)号:CN103258248A
公开(公告)日:2013-08-21
申请号:CN201310190225.3
申请日:2013-05-21
Applicant: 中国科学院计算技术研究所
IPC: G06Q10/04
Abstract: 本发明提供一种微博流行趋势预测方法、装置及系统。所述方法包括:获得微博用户群体行为特征描述,所述微博用户群体行为特征描述表征用户发布微博的行为特征以及微博转发和评论中用户的行为特征。所述方法还包括:根据微博发布后第1至i-1个时间间隔的转发和评论数量,以及所述微博用户群体行为特征描述,计算所述微博在第i个时间间隔的转发和评论数量,其中i为大于1的正整数。本发明从时间维度出发,对微博用户的群体行为特征进行描述,在保证微博流行趋势预测的准确性以及效率的同时还可以在线实时进行预测。
-
公开(公告)号:CN103150383A
公开(公告)日:2013-06-12
申请号:CN201310082990.3
申请日:2013-03-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种短文本数据的事件演化分析方法,包括:根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到文档—事件矩阵和事件—词项矩阵;根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图;当前时段的事件关系图分割为一个或多个子图;对子图进行归类得到新生成事件集和演化事件集;根据文档—事件矩阵计算每个事件关联的文档数,并根据该文档数做演化事件集的趋势分析和预测,作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。
-
公开(公告)号:CN103150382A
公开(公告)日:2013-06-12
申请号:CN201310081984.6
申请日:2013-03-14
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念,并且基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵,这使得该矩阵的构造和计算方便,而且克服了目录信息粒度比较粗,歧义多的问题。而且在语义概念扩展阶段,采用基于上下文的语义相似度计算方法来进行语义概念扩展,同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性,提高了语义概念扩展的准确性。
-
公开(公告)号:CN103064966A
公开(公告)日:2013-04-24
申请号:CN201210592795.0
申请日:2012-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。
-
公开(公告)号:CN101388006B
公开(公告)日:2013-03-20
申请号:CN200810225031.1
申请日:2008-10-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明涉及一种自动化的文摘实验装置与方法。该方法包括:步骤1,对文摘对象数据进行预处理得到文摘数据;步骤2,调用指定的文摘算法生成自动文摘;步骤3,使用预置的标准文摘和指定的评价工具对自动文摘进行评价,并返回文摘性能评价结果;步骤4,依据文摘性能评价结果优化指定的文摘算法的性能。本发明解决了文摘实验过程中文摘算法与评价工具的跨语言无缝衔接,实现了文摘算法参数训练过程与文摘实验的自动化,使技术人员可以自主配置文摘算法与参数取值配置文件,自动地进行算法性能的验证与参数组合的学习。
-
公开(公告)号:CN102546664A
公开(公告)日:2012-07-04
申请号:CN201210047821.1
申请日:2012-02-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供用于分布式文件系统的用户和权限管理方法。首先由元数据服务器对用户身份进行验证,以判断用户身份是否合法。然后,由元数据服务器对来自合法用户的操作权限进行验证,以判断该用户对所请求访问的文件是否具有相应的操作权限;如果有,则向数据块服务器发送对该用户的权限确认通知。由数据块服务器基于所收到的权限确认通知中的信息来对来自客户端的操作请求进行验证,并处理来自合法用户的且被元数据服务器所允许的操作请求。通过对上述三项内容的验证能够保证访问分布式文件系统用户的合法性以及操作的合法性,同时能够避免某些不合法用户越过元数据服务器的相关认证直接盗取或破坏数据块服务器的内容。
-
公开(公告)号:CN102289514A
公开(公告)日:2011-12-21
申请号:CN201110263798.5
申请日:2011-09-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
-
公开(公告)号:CN101464905B
公开(公告)日:2011-03-23
申请号:CN200910076548.3
申请日:2009-01-08
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其所属类别的网页模板间的差异;自动标注模块,用于解析类别对应的训练网页,生成第一包装器文件,按第一包装器文件对待自动标注网页进行自动标注,以生成新的训练网页;包装器文件生成模块,用于解析所有训练网页,生成第二包装器文件;在线抽取模块,用于应用第二包装器文件对网页集合中未被选取的网页信息进行抽取。本发明能够对应不同类的网页生成多个模板,并对网页中多个记录和每个记录多个属性进行抽取。
-
公开(公告)号:CN101132272B
公开(公告)日:2010-07-28
申请号:CN200610112548.0
申请日:2006-08-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种同时支持分布式加密文件下载和使用的系统,该系统包括:至少一个文件发布单元、至少一个目录服务单元和至少一个文件使用单元。利用本发明,有效地解决了P2P文件的安全分发问题,即利用了P2P文件下载的特点,有效保证了长期稳定的文件下载速度,又不影响用户对文件的正常使用,不增加对客户端的存储要求,只需要保存文件的一个拷贝。
-
-
-
-
-
-
-
-
-