基于机器学习的近似查询优化系统

    公开(公告)号:CN114911844A

    公开(公告)日:2022-08-16

    申请号:CN202210515794.X

    申请日:2022-05-11

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。

    大型语料库上的快速文本聚类方法

    公开(公告)号:CN108228721B

    公开(公告)日:2021-06-04

    申请号:CN201711290927.3

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。

    近似查询处理中的样本调节系统

    公开(公告)号:CN112380250A

    公开(公告)日:2021-02-19

    申请号:CN202011106056.7

    申请日:2020-10-15

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。

    针对探索性查询的高效抽样方法

    公开(公告)号:CN108776707A

    公开(公告)日:2018-11-09

    申请号:CN201810625076.1

    申请日:2018-06-17

    Applicant: 复旦大学

    Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。

    一种自组织网络中服务合成的可靠代理执行方法

    公开(公告)号:CN101179498A

    公开(公告)日:2008-05-14

    申请号:CN200710170789.5

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本发明属于自组织网络技术领域,具体是涉及一种自组织网络中服务合成的可靠代理执行方法。该方法包括:请求源通过执行代理评估及自组织网络评估,了解各个执行代理的状态和能力;请求源的执行代理选择,一旦执行代理选择完毕,将请求的合成服务转移到执行代理开始执行;执行代理的执行和出错处理。本发明可以提高服务合成执行的成功率以及缩短服务合成执行的时间,更好地适应自组织网络中节点的动态性以及不稳定性,提高服务合成在自组织网络中的实用性。

    基于机器学习的近似查询优化系统

    公开(公告)号:CN114911844B

    公开(公告)日:2024-04-05

    申请号:CN202210515794.X

    申请日:2022-05-11

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。

    基于分组掩码自回归模型的查询基数估计方法

    公开(公告)号:CN116662454A

    公开(公告)日:2023-08-29

    申请号:CN202310401084.9

    申请日:2023-04-15

    Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。

    近似查询处理中的样本调节系统

    公开(公告)号:CN112380250B

    公开(公告)日:2023-01-06

    申请号:CN202011106056.7

    申请日:2020-10-15

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。

    针对探索性查询的抽样方法

    公开(公告)号:CN108776707B

    公开(公告)日:2021-07-23

    申请号:CN201810625076.1

    申请日:2018-06-17

    Applicant: 复旦大学

    Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。

    一种基于特定划分的主题模型下的文档生成方法

    公开(公告)号:CN107491417B

    公开(公告)日:2021-06-22

    申请号:CN201710548431.5

    申请日:2017-07-06

    Applicant: 复旦大学

    Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。

Patent Agency Ranking