-
公开(公告)号:CN103853766A
公开(公告)日:2014-06-11
申请号:CN201210510056.2
申请日:2012-12-03
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/3048 , G06F17/30545
Abstract: 本发明公开了一种面向流式数据的在线处理方法,包括:步骤1,建立在线内存缓存层,对所述流式数据按照键值结构进行属性抽取后存储在所述在线内存缓存层中;步骤2,在所述内存缓存层中对所述流式数据建立混合索引结构;步骤3,对建立好索引结构的每条流式数据增加一个访问标志位,此标志位用于标志不同分析程序对于该流式数据的注册情况,同时对每一个分析程序访问流式数据的状态进行记录。步骤4,数据清理,若某流式数据被所述内存缓存层中的所有指定的分析程序访问过,则将该流式数据进行清理操作。本发明大幅度减小了流式处理过程中的数据读写压力,能够有效缓解大规模流式数据处理系统中数据库的压力,且能够提升流式数据的实时处理速度。
-
公开(公告)号:CN103279484A
公开(公告)日:2013-09-04
申请号:CN201310144152.4
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客系统中未来意见领袖的创建方法及系统,方法包括:步骤1,初始化网络环境;步骤2,选择博弈发起方用户;步骤3,选择博弈接收方用户;步骤4,构建博弈收益矩阵;步骤5,计算是否存在纳什均衡点,如果存在则选择使双方用户收益和最大的纳什均衡点,根据纳什均衡点执行相应的关系动作和消息动作,如果不存在则选择执行使博弈发起方用户收益最大的关系动作或消息动作;步骤6,更新用户属性;步骤7,计算意见领袖特征值;步骤8,根据意见领袖特征值的变化趋势,获得成为意见领袖的用户特征组合,利用用户特征组合创建未来意见领袖。本发明在博弈过程中选择用户行为,对微博系统中网络拓扑结构生成与变化进行评估。
-
公开(公告)号:CN103279482A
公开(公告)日:2013-09-04
申请号:CN201310143346.2
申请日:2013-04-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种面向微博客平台的社交朋友圈的挖掘方法及系统,其方法包括:步骤1,通过微博客平台所提供的数据接口得到待查看用户的朋友列表;步骤2,针对所述朋友列表中的每个朋友用户,通过微博客平台所提供的数据接口得到所述每个朋友用户的朋友列表;步骤3,计算所述待查看用户的朋友列表与所述每个朋友用户的朋友列表的邻里相似度;步骤4,取出邻里相似度大于指定阈值的朋友用户,作为所述待查看用户的现实朋友用户;步骤5,计算所述待查看用户与所述现实朋友用户所构成的有向连通图中的最强连通子图,所获得的每个最强连通子图构成所述待查看用户的社交朋友圈。本发明能够在海量用户中挖掘社交朋友圈。
-
公开(公告)号:CN103258248A
公开(公告)日:2013-08-21
申请号:CN201310190225.3
申请日:2013-05-21
Applicant: 中国科学院计算技术研究所
IPC: G06Q10/04
Abstract: 本发明提供一种微博流行趋势预测方法、装置及系统。所述方法包括:获得微博用户群体行为特征描述,所述微博用户群体行为特征描述表征用户发布微博的行为特征以及微博转发和评论中用户的行为特征。所述方法还包括:根据微博发布后第1至i-1个时间间隔的转发和评论数量,以及所述微博用户群体行为特征描述,计算所述微博在第i个时间间隔的转发和评论数量,其中i为大于1的正整数。本发明从时间维度出发,对微博用户的群体行为特征进行描述,在保证微博流行趋势预测的准确性以及效率的同时还可以在线实时进行预测。
-
公开(公告)号:CN103150383A
公开(公告)日:2013-06-12
申请号:CN201310082990.3
申请日:2013-03-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种短文本数据的事件演化分析方法,包括:根据词库和当前时段输入的短文本数据构造当前时段的文档—词项矩阵并对其进行非负矩阵分解,得到文档—事件矩阵和事件—词项矩阵;根据事件—词项矩阵计算当前时段的事件和前一时段的事件之间的相似度,根据该相似度、当前时段的事件和前一时段的剩余图构造当前时段的事件关系图;当前时段的事件关系图分割为一个或多个子图;对子图进行归类得到新生成事件集和演化事件集;根据文档—事件矩阵计算每个事件关联的文档数,并根据该文档数做演化事件集的趋势分析和预测,作为下一时段非负矩阵分解的约束条件。该方法适于动态地跟踪短文本数据的事件演化过程。
-
公开(公告)号:CN103150382A
公开(公告)日:2013-06-12
申请号:CN201310081984.6
申请日:2013-03-14
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于开放知识库的短文本语义概念自动化扩展方法,所述方法将每条短文本生成的n-gram集合中的每个元素链接到开放知识库中与该元素最相关的概念,并且基于开放知识库的概念关系矩阵和所链接的概念,为该元素生成扩展的语义概念集合。该方法仅采用开放知识库文档中的锚文本信息而不采用文档的词项信息和目录信息来构建概念关系矩阵,这使得该矩阵的构造和计算方便,而且克服了目录信息粒度比较粗,歧义多的问题。而且在语义概念扩展阶段,采用基于上下文的语义相似度计算方法来进行语义概念扩展,同时考虑了短文本内容的上下文内容的一致性和概念在抽象语义层的相似性,提高了语义概念扩展的准确性。
-
公开(公告)号:CN103064966A
公开(公告)日:2013-04-24
申请号:CN201210592795.0
申请日:2012-12-31
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。
-
公开(公告)号:CN101388006B
公开(公告)日:2013-03-20
申请号:CN200810225031.1
申请日:2008-10-24
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明涉及一种自动化的文摘实验装置与方法。该方法包括:步骤1,对文摘对象数据进行预处理得到文摘数据;步骤2,调用指定的文摘算法生成自动文摘;步骤3,使用预置的标准文摘和指定的评价工具对自动文摘进行评价,并返回文摘性能评价结果;步骤4,依据文摘性能评价结果优化指定的文摘算法的性能。本发明解决了文摘实验过程中文摘算法与评价工具的跨语言无缝衔接,实现了文摘算法参数训练过程与文摘实验的自动化,使技术人员可以自主配置文摘算法与参数取值配置文件,自动地进行算法性能的验证与参数组合的学习。
-
公开(公告)号:CN102546664A
公开(公告)日:2012-07-04
申请号:CN201210047821.1
申请日:2012-02-27
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供用于分布式文件系统的用户和权限管理方法。首先由元数据服务器对用户身份进行验证,以判断用户身份是否合法。然后,由元数据服务器对来自合法用户的操作权限进行验证,以判断该用户对所请求访问的文件是否具有相应的操作权限;如果有,则向数据块服务器发送对该用户的权限确认通知。由数据块服务器基于所收到的权限确认通知中的信息来对来自客户端的操作请求进行验证,并处理来自合法用户的且被元数据服务器所允许的操作请求。通过对上述三项内容的验证能够保证访问分布式文件系统用户的合法性以及操作的合法性,同时能够避免某些不合法用户越过元数据服务器的相关认证直接盗取或破坏数据块服务器的内容。
-
公开(公告)号:CN102289514A
公开(公告)日:2011-12-21
申请号:CN201110263798.5
申请日:2011-09-07
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提供一种社会化标签自动标注的方法。该方法包括计算标签词项在文档中的频率(TF)权重,以及由协同过滤CF、一致性话题模型Corr-LDA方法所得的标签权重,并归一化;对上述权重建立线性融合权值模型,并估计线性融合参数;以及基于线性融合模型对社会标签进行自动标注。该发明同时考虑了社会标签与文档具体内容的一致性和抽象语义层的相关性,因此能够提高社会标签自动标注的准确性。
-
-
-
-
-
-
-
-
-