一种界标窗口下域名数据重复检测快速索引方法

    公开(公告)号:CN104794158A

    公开(公告)日:2015-07-22

    申请号:CN201510117236.8

    申请日:2015-03-17

    Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。

    一种已标注样本的维护方法及双向学习交互式分类方法

    公开(公告)号:CN104657745A

    公开(公告)日:2015-05-27

    申请号:CN201510046891.9

    申请日:2015-01-29

    Abstract: 本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。

    一种用于海量数据管理的多盘位存储方法及系统

    公开(公告)号:CN103761059A

    公开(公告)日:2014-04-30

    申请号:CN201410035889.7

    申请日:2014-01-24

    Abstract: 本发明涉及一种用于海量数据管理的多盘位存储方法及系统,所述方法包括:建立四层树型的数据存储结构,即一个Master节点、位于Master节点下的若干数据存储节点、位于各数据存储节点下的若干磁盘和位于各磁盘下的若干数据分片;在每个数据存储节点上设置一个多盘位管理器,用于维护当前数据存储节点的磁盘信息,并在多盘位管理器的管理下,在磁盘中进行数据分片的增加或删除;通过多盘位管理器,对各数据存储节点之间的负载进行负载均衡分析,且同时对数据存储节点内部各磁盘间的负载进行负载均衡分析。本发明既能充分利用多盘的并行读写的特点,又能够最小化数据盘出现故障时对其他盘的数据的影响,同时还能够不增加数据的冗余度,大大提高了系统效率。

    一种分布式元数据管理方法及系统

    公开(公告)号:CN103729436A

    公开(公告)日:2014-04-16

    申请号:CN201310741599.X

    申请日:2013-12-27

    CPC classification number: G06F17/30289 G06F17/30371

    Abstract: 本发明涉及一种分布式元数据管理方法及系统,所述方法具体包括:存储步骤,划分独立的元数据节点和用户表节点,分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成存储相同元数据的主副本节点和从副本节点;校验步骤,对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点存储的元数据一致;修复步骤,采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视到有主副本节点或从副本节点宕机时,其触发主副本节点和从副本节点之间的切换,实现对宕机节点的修复。所述系统与分布式元数据管理方法的技术方案一一对应。本发明解决了元数据管理中存在的单点故障和多幅本间一致性等问题。

Patent Agency Ranking