-
公开(公告)号:CN118585585A
公开(公告)日:2024-09-03
申请号:CN202410726943.6
申请日:2024-06-06
Applicant: 华中科技大学 , 济南浪潮数据技术有限公司
IPC: G06F16/27 , G06F16/2458 , G06F16/22 , G06F18/23
Abstract: 本发明公开了一种面向云数据分析场景的水平数据分区方法,其自适应识别历史查询负载在各属性的热点查询区间、具有局部性的查询模式和离群查询区间,由此对历史查询负载灵活泛化,兼顾未来查询负载与历史查询负载的相似性和差异性;设计了基于概率的成本模型,准确地评估泛化查询负载的开销,并考虑了数据属性间的相关性,以更精确地量化分区动作的收益,从而优化分区决策;设计了基于概率成本模型的两阶段水平分区方法,首先使用轴垂直超平面切割,使得分区方案尽可能细粒度地对齐泛化查询负载,保证数据跳过效率;针对轴垂直超平面切割面对倾斜数据失效的问题,设计了排序二分切割作为补充,增强分区方法鲁棒性的同时,进一步提升数据跳过效率。
-
公开(公告)号:CN118035501A
公开(公告)日:2024-05-14
申请号:CN202410137615.2
申请日:2024-01-31
Applicant: 华中科技大学
IPC: G06F16/901 , G06F16/903
Abstract: 本发明公开了一种面向云数据分析服务场景的数据块索引结构及其构建方法,首先将被索引数据的数据块中的分布情况建模成累积分布函数,进而使用分段线性函数拟合该累积分布函数,从而对数据块分布模式进行捕获,根据捕获到的模式将被索引的数据组织成分段,并对每个分段进行分区,最后,每个分段及其内的分区作为叶子节点构建B+树结构,以实现高效的查找和插入操作。本发明能够解决现有成员过滤器方法和精确索引方法过滤效果好但索引存储开销大的技术问题,以及现有小物化聚合方法索引存储开销小但过滤效果差的技术问题。
-