面向大数据环境的概要信息动态构建与查询方法及装置

    公开(公告)号:CN104657450B

    公开(公告)日:2018-09-25

    申请号:CN201510061345.2

    申请日:2015-02-05

    Abstract: 本发明涉及一种面向大数据环境的概要信息动态构建与查询方法及装置。该方法以Count‑Min Sketch方法为基础,采用数据流的第一范数描述数据规模,采用数据的基数值描述数据的分布情况;首先为流式大数据分配一较小空间的Count‑min Sketch结构,随着数据不断加载,当Count‑min Sketch结构记录的数据项个数达到阈值且数值空间基数达到阈值以后,建立新的Count‑min Sketch结构,用以接收后续到来的新数据。本发明能够根据数据量和数值基数自动建立新的Sketch结构,以较高精度统计数据,有效支持流式大数据的高精度的实时统计和分析。

    一种新鲜度敏感的大数据概要信息维护及聚合值查询方法

    公开(公告)号:CN104951503B

    公开(公告)日:2018-02-27

    申请号:CN201510252988.5

    申请日:2015-05-18

    Abstract: 本发明公开了一种新鲜度敏感的大数据概要信息维护及聚合值查询方法。本方法为:1)对每个时间对象的时间对象数据建立一时间追踪器;2)对于待写入的时间对象数据,根据时间对象映射到对应的追踪器,然后追踪器将对应的时间对象数据划分为多个时间阶段并设置每一时间阶段的误差参数;3)追踪器根据每一时间阶段的误差参数对该时间阶段内的时间对象数据进行采样并保存对该时间追踪器对应的样本集合中。查询时首先根据时间对象的关键字key定位到对应的时间追踪器;然后追踪器根据查询时间信息查找该时间追踪器中的时间阶段,根据找到的时间阶段对应的样本返回查询值。本发明有效管理并查询时间对象数据,支持面向主题的更高层次的计算应用。

    一种已标注样本的维护方法及双向学习交互式分类方法

    公开(公告)号:CN104657745B

    公开(公告)日:2017-12-15

    申请号:CN201510046891.9

    申请日:2015-01-29

    Abstract: 本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。

    一种基于多尺度地理信息的社交网络关联挖掘方法

    公开(公告)号:CN106021290A

    公开(公告)日:2016-10-12

    申请号:CN201610285422.7

    申请日:2016-04-29

    CPC classification number: G06F16/242 G06F16/29 G06K9/6215 G06K9/6285

    Abstract: 本发明涉及一种基于多尺度地理信息的社交网络关联挖掘方法。该方法包括:1)获取用户签到数据,对其进行预处理得到结构化数据;2)设定划分地图的不同方法以及每种方法的尺度标准,根据用户签到数据中的GPS数据计算获得其对应的多个位置ID;3)根据签到人数计算获得不同位置的权重,表征不同位置对社交关系预测的贡献;4)利用位置的权重信息进行特征提取,获得所有用户的位置交互特征;5)利用提取的特征训练分类器,得到关系预测模型;6)利用所得的关系预测模型对目标用户进行预测,获得社交网络关系预测结果。本发明通过充分利用位置签到信息来训练获得更鲁棒的预测模型,能够获得理想稳定的预测结果。

    一种海量非结构化数据的数据存储方法

    公开(公告)号:CN104731864A

    公开(公告)日:2015-06-24

    申请号:CN201510088785.7

    申请日:2015-02-26

    CPC classification number: G06F17/30628 G06F17/30132

    Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。

    一种社交网络结构构建方法

    公开(公告)号:CN104657434A

    公开(公告)日:2015-05-27

    申请号:CN201510050126.4

    申请日:2015-01-30

    Abstract: 本发明公开了一种社交网络结构构建方法。本方法为:1)基于待构建社交网络的社交网络图模型G=(V,L),获取用户之间交互行为的加权链接矩阵以及该社交网络的用户属性矩阵F;2)将加权链接矩阵和用户属性矩阵合并,构建一综合信息矩阵N;3)根据综合信息矩阵N,对||W||0+λrank(W)求最小化,得到该社交网络的链接强度矩阵W;最小化约束条件为N=NW,diag(W)=0,W≥0;4)将该链接强度矩阵W作为该社交网络图模型中边集L的权重信息,得到G=(V,LW),构建出该社交网络的网络结构。本方法可实现对社交网络整体结构的建模,从而获得社交网络中任意用户之间相互关系的真实、可靠度量,且求解效率高。

    一种数据布局优化方法及系统

    公开(公告)号:CN103678158A

    公开(公告)日:2014-03-26

    申请号:CN201310732673.1

    申请日:2013-12-26

    Abstract: 本发明涉及一种数据布局优化方法,具体包括以下步骤:步骤1:接收业务系统输入的连续数据流;步骤2:将数据流划分为连续无交叉的多个数据块;步骤3:判断待处理的数据块是否达到缓存上限,如果是,进行下一步;否则,跳转至步骤1;步骤4:计算得到缓存中的所有数据块的指纹;步骤5:将缓存中数据块的指纹与指纹列表中的指纹进行匹配,将匹配的数据块标记为重复数据块;将不指纹匹配的指纹存入指纹列表中;步骤6:更新数据块信息表中的数据块的物理位置信息;步骤7:根据数据块信息表中的各个数据块的物理位置信息存储对应的数据块。本发明提高了数据的顺序性,降低了数据布局的离散化,提高了重复数据删除系统的顺序读写性能。

Patent Agency Ranking