-
公开(公告)号:CN116662454A
公开(公告)日:2023-08-29
申请号:CN202310401084.9
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/2453 , G06F18/23213 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。
-
公开(公告)号:CN117032564A
公开(公告)日:2023-11-10
申请号:CN202310853977.7
申请日:2023-07-13
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
Abstract: 本发明属于数据库技术领域,具体为一种面向双层索引结构Bindex的数据写入优化方法。本发明首先提供双层索引结构Bindex第二层的混合结构,其包括位置标号序列按照区域扩展而成的多组数据内存块,以及每组数据内存块对应的块信息数组;同一块内的存储的值保持无序;块信息数组包括数据块的最小值、块内存储值的数量和块内存地址;针对该结构的写入优化方法包含无序写入及批量更新:无序写入是写入新数据时确定数据范围后不进行排序,直接将对应位置序号插入在对应数据块尾部;在此基础上应用批量更新,一次性处理大批量新增数据。本发明避免了原索引数据块写入新数据过程中的排序开销,提高了索引结构的写入性能,同时还保证了索引的有效性。
-
公开(公告)号:CN117194423A
公开(公告)日:2023-12-08
申请号:CN202311138400.4
申请日:2023-09-05
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/22 , G06F16/23 , G06F16/242
Abstract: 本发明公开了一种面向持久化存储的索引结构,属于数据库领域,包括删除标记位向量及通过逻辑块索引连接的第一层和第二层;逻辑块索引为对逻辑块构建的索引,逻辑块为对含有N个数据的原始数组按预定顺序排列后得到的临时数组进行划分后得到的k个数据块;第一层包括k+1个位向量,每个位向量均包括N个用于表示原始数组中的某个数据是否存在于某个逻辑块中的比特;第二层包括具有N个位置序号的位置标号序列,位置序号表示临时数组中相对应的数据在原始数组中的位置序号;删除标记位向量包括N个用于表示原始数组中相对应的数据是否已被移除的比特。本发明既避免了对原文件的索引结构进行更新,同时还可以保证索引的有效性。
-
公开(公告)号:CN116521719A
公开(公告)日:2023-08-01
申请号:CN202310401083.4
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06N3/084 , G06N3/04 , G06F16/22
Abstract: 本发明属于数据库查询技术领域,具体为一种基于代价估计的查询优化系统。本发明包括系统信息提取器、基于深度学习的代价估计模型;系统信息器将数据库管理系统的存储、执行模型等信息处理成为结构化数据以供模型使用;基于深度学习的代价估计模型能够根据不同的系统信息,通过历史执行记录建立从查询到代价的映射关系,从而对未知查询的代价进行估计;代价估计模型的训练采用分层训练策略,可以帮助模型从成批的训练数据中进行学习,提高模型训练的内存利用率,减小训练震荡,加速模型收敛。本发明可以帮助数据库优化器选择正确执行计划,最终提高数据库整体的查询执行效率。
-
公开(公告)号:CN118568129A
公开(公告)日:2024-08-30
申请号:CN202410628960.6
申请日:2024-05-21
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06F18/27 , G06F18/25 , G06N3/0455 , G06N3/084 , G06N3/048
Abstract: 本发明属于数据库查询技术领域,具体为一种基于混合自回归模型与采样的查询基数估计方法。本发明包括构建一种多路并行掩码自编码模型,该模型可以更好地学习数据中的联合概率分布;一种离线连接键采样的基数估计方法,该方法通过依照连接键在多表连接中进行单表采样,以完成基数估计;一种将自回归模型与连接键采样混合的基数估计方法,可以结合两者的基数估计优势,提高基数估计方法的整体准确性。本发明可以减少传统自回归模型进行基数估计时的查询高分位误差,提高基数估计的稳定性,提高查询优化器生成的查询计划质量,加速数据库的查询执行。
-
公开(公告)号:CN114911844B
公开(公告)日:2024-04-05
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/0442
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN112380250B
公开(公告)日:2023-01-06
申请号:CN202011106056.7
申请日:2020-10-15
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/242
Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。
-
公开(公告)号:CN108776707B
公开(公告)日:2021-07-23
申请号:CN201810625076.1
申请日:2018-06-17
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/2458 , G06K9/62
Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。
-
公开(公告)号:CN107491417B
公开(公告)日:2021-06-22
申请号:CN201710548431.5
申请日:2017-07-06
Applicant: 复旦大学
Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
公开(公告)号:CN108197154A
公开(公告)日:2018-06-22
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
-
-
-
-
-
-
-
-