-
公开(公告)号:CN108460074A
公开(公告)日:2018-08-28
申请号:CN201711470231.9
申请日:2017-12-29
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种基于BloomFilter原理的多列索引在列存数据库中的实现方法,包括:基于BloomFilter原理的多列索引在列存数据库中的创建方法,及在列存数据库查询中的使用方法。本发明实现的多列索引具有以下优点:不存储实际值,空间占用小;索引查询速度快,耗时固定;一个索引即可支持任意列的组合查询;BloomFilter中的假阳率(False positives)可控。本发明的有益效果是能最大程度地排除不命中的记录,减少扫描所需的磁盘访问,从而提升数据库的性能。
-
公开(公告)号:CN106776746A
公开(公告)日:2017-05-31
申请号:CN201611029689.6
申请日:2016-11-14
Applicant: 天津南大通用数据技术股份有限公司
IPC: G06F17/30
CPC classification number: G06F16/328
Abstract: 本发明提供了一种全文索引数据的创建方法及装置,所述方法包括:并行对文档进行分词,记录单词位置和单词标记;按照用于记录单词位置和单词标记的存储数据块顺序对所述分词的结果依次进行封装,生成封装块和封装块的索引,所述索引包括:词编号及数量;根据所述索引对单词进行排序;对所述封装块进行拆包,对相同的单词进行归类。可以有效利用计算资源,减少分词时间,并可对并行分词结果排序处理,准确的得到索引数据。
-