-
公开(公告)号:CN114911844B
公开(公告)日:2024-04-05
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/0442
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN116662454A
公开(公告)日:2023-08-29
申请号:CN202310401084.9
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/2453 , G06F18/23213 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。
-
公开(公告)号:CN112380250B
公开(公告)日:2023-01-06
申请号:CN202011106056.7
申请日:2020-10-15
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/242
Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。
-
公开(公告)号:CN114756772B
公开(公告)日:2025-02-14
申请号:CN202210370416.7
申请日:2022-04-09
Applicant: 复旦大学
IPC: G06F16/9537 , G06F16/2458 , G06F16/906
Abstract: 本发明属于数据分析技术领域,具体为一种时空数据查询处理中的抽样系统。本发明系统包括时空网格划分器、样本生成器:时空网格划分器按照一定粒度在时空坐标系上划分网格,并给每个网格分配样本容量;具体的划分粒度可以根据实际需求定义;样本生成器按照划分器分配的样本容量在每个网格内均匀采样,并汇总成最终样本。本发明可帮助分析人员从时空大数据中获取更为全面的样本,发掘容易被简单均匀采样遗漏的信息,增加样本分析结论的可靠性。
-
公开(公告)号:CN116756291A
公开(公告)日:2023-09-15
申请号:CN202310818649.3
申请日:2023-07-04
Applicant: 复旦大学
IPC: G06F16/332 , G06F16/33 , G06N5/04 , G06N3/08
Abstract: 本发明提供一种基于和积网络模型的基数估计及近似查询处理方法及装置,在模型构建步骤中基于准确性需求对叶子节点的行号位图进行合并,从而构建出准确性高并且最小化推理开销的融合位图的和积网络模型;在查询处理步骤中,基于给定的与准确性需求相关的规则以及分解到最底层乘积节点中的查询请求决定其下叶子节点的计算方式,因此能够获取最优的推理准确性以及开销。通过本发明的方法及装置能够提高查询优化中基数估计的准确性,从而帮助提高查询优化结果,减少查询执行所需开销,帮助数据分析人员对大规模数据集进行实时分析,通过融合额外的数据分布特征,提高近似查询处理在SPJA查询上的准确性,以提升用户体验,提高决策的有效性。
-
公开(公告)号:CN116521719A
公开(公告)日:2023-08-01
申请号:CN202310401083.4
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/2453 , G06F16/2455 , G06N3/084 , G06N3/04 , G06F16/22
Abstract: 本发明属于数据库查询技术领域,具体为一种基于代价估计的查询优化系统。本发明包括系统信息提取器、基于深度学习的代价估计模型;系统信息器将数据库管理系统的存储、执行模型等信息处理成为结构化数据以供模型使用;基于深度学习的代价估计模型能够根据不同的系统信息,通过历史执行记录建立从查询到代价的映射关系,从而对未知查询的代价进行估计;代价估计模型的训练采用分层训练策略,可以帮助模型从成批的训练数据中进行学习,提高模型训练的内存利用率,减小训练震荡,加速模型收敛。本发明可以帮助数据库优化器选择正确执行计划,最终提高数据库整体的查询执行效率。
-
公开(公告)号:CN114911844A
公开(公告)日:2022-08-16
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN112380250A
公开(公告)日:2021-02-19
申请号:CN202011106056.7
申请日:2020-10-15
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/242
Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。
-
公开(公告)号:CN115794880A
公开(公告)日:2023-03-14
申请号:CN202211379710.0
申请日:2022-11-04
Applicant: 复旦大学
IPC: G06F16/2455 , G06F16/2458 , G06N3/0464 , G06N3/0455 , G06N3/08 , G06N3/047
Abstract: 本发明属于数据分析技术领域,具体为一种面向近似查询处理的和积网络与残差神经网络混合模型。本发明包括两个模块:基于和积网络的无监督学习模块,针对数据集的不同样本,训练多个相互独立的和积网络模型来捕捉数据的整体分布规律,每个和积网络模型等价于原始数据集的一个密度估计器,可以通过该模型计算出聚合查询的近似结果;基于残差神经网络的监督学习模块,针对一个给定的查询,将该查询在训练好的多个和积网络中预测出的查询结果以及和积网络预测过程中的特征向量作为输入,用查询的真实结果作为标签训练深度神经网络,当用户查询输入时,该模型能够输出经过校正后具有更高准确性的近似查询结果。本发明在大幅降低查询执行时延的同时提供具有较高准确性的近似查询结果。
-
公开(公告)号:CN118779499A
公开(公告)日:2024-10-15
申请号:CN202410721106.4
申请日:2024-06-05
Applicant: 复旦大学
IPC: G06F16/9032 , G06N20/00
Abstract: 本发明提供一种基于子空间编码和机器学习模型的洞察发现方法及系统,主要应用场景为探索式数据分析中的自动洞察发现环节。本发明中,针对直接使用数据中的属性列构建特征向量会导致洞察发现过程中的数据范围无法有效区分的问题,通过基于给定的数据范围所对应的数据子空间完成所有的特征提取和编码过程,保证数据范围向量化的唯一性;针对多个数据范围的计算顺序问题,采用随机森林模型对数据范围进行优先级预测,从而在给定的时间预算内对最有可能蕴含洞察的数据范围进行洞察挖掘。本发明与其他现存探索性数据分析过程中的洞察推荐方法相比,无论是效率还是效果都更为优秀,能够在更短的时间挖掘出更有价值的数据洞察并返回给分析人员。
-
-
-
-
-
-
-
-
-