-
公开(公告)号:CN114911844B
公开(公告)日:2024-04-05
申请号:CN202210515794.X
申请日:2022-05-11
Applicant: 复旦大学
IPC: G06F16/2458 , G06F16/2453 , G06N3/0442
Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。
-
公开(公告)号:CN116662454A
公开(公告)日:2023-08-29
申请号:CN202310401084.9
申请日:2023-04-15
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F16/28 , G06F16/2453 , G06F18/23213 , G06N3/04 , G06N3/08
Abstract: 本发明属于数据库查询技术领域,具体为一种基于分组掩码自回归模型的查询基数估计方法。本发明包括列数据分组预处理、分组掩码神经网络基数估计模型训练;列数据分组预处理将单表数据进行分组排序,使模型更好的学习到其中的联合概率分布;分组掩码神经网络基数估计模型通过位置编码以不同次序学习部分列的分布,模型训练分为数据训练、混合掩码训练、直接查询训练三个阶段且混合训练,组合不同的数据集对模型进行训练,降低模型的训练时间;从数据库系统执行日志中记录误差较大的查询信息并加入三阶段训练的数据中,提高模型的训练效率。本发明可以减少传统自回归模型进行基数估计时的查询误差,减少时耗,使得模型可以更快、更稳定用于基数估计。
-
公开(公告)号:CN112380250B
公开(公告)日:2023-01-06
申请号:CN202011106056.7
申请日:2020-10-15
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/242
Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。
-
公开(公告)号:CN108776707B
公开(公告)日:2021-07-23
申请号:CN201810625076.1
申请日:2018-06-17
Applicant: 复旦大学
IPC: G06F16/2453 , G06F16/2458 , G06K9/62
Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。
-
公开(公告)号:CN107491417B
公开(公告)日:2021-06-22
申请号:CN201710548431.5
申请日:2017-07-06
Applicant: 复旦大学
Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
公开(公告)号:CN108197154A
公开(公告)日:2018-06-22
申请号:CN201711291086.8
申请日:2017-12-08
Applicant: 复旦大学
IPC: G06F17/30
Abstract: 本发明属于关系数据库技术领域,具体为一种交互式文档探索的在线子集主题建模方法。在探索式场景中,用户对于所要查找的目标没有一个清晰界定,需要通过概述的方式来了解数据,因此,为给定的文本数据集合提供概述至关重要。概率主题模型是文本概述的常用手段,然而每次对给定文档进行建模十分费时,不适用于交互式探索的场景。本发明给出在线子集主题建模的方法,通过使用全局预处理和基于采样的推断算法来加速建模过程,在保持主题模型质量的同时能够获得指数级的速度提升。同时,本发明算法与直接在子集上按单词进行主题建模相比,基于语段的建模更好地利用了已有的主题分布信息;采用语段作为基本单元使得最终得到的主题具备较好的可理解性。
-
公开(公告)号:CN107507091A
公开(公告)日:2017-12-22
申请号:CN201710798216.0
申请日:2017-09-07
Applicant: 复旦大学
CPC classification number: G06Q40/04 , G06F21/31 , G06Q20/405 , H04L67/10
Abstract: 本发明属于数据安全技术领域,具体为一种基于区块链和智能合约的增强型数据权益保护方法。本发明步骤包括:数据拥有者将数据属性和策略属性提交给部署在区块链的智能合约来发布数据;其他使用者作为数据受让方将其流通属性作为参数调用该智能合约进行流通申请,智能合约根据数据的策略属性自动判定申请是否合法后,返回申请结果;若数据受让方的流通属性合法,则获得智能合约授权生成的流通许可证;反之,智能合约将判定申请失败。本发明应用区块链技术,保护数据拥有者的权益,并公正地受理每个数据受让方的申请;同时提升了系统稳定性,去除了数据权益保护过程中对第三方权威机构的依赖,为数据流通过程提供了公正、透明、可信的执行环境。
-
公开(公告)号:CN107491417A
公开(公告)日:2017-12-19
申请号:CN201710548431.5
申请日:2017-07-06
Applicant: 复旦大学
CPC classification number: G06F17/30616 , G06F17/16 , G06F17/30657 , G06F17/30705
Abstract: 本发明属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。
-
公开(公告)号:CN101742606A
公开(公告)日:2010-06-16
申请号:CN200810202721.5
申请日:2008-11-14
Applicant: 复旦大学
Abstract: 本发明属于自组织网络技术领域,具体是一种在无线自组织网络中的基于位置信息的组合服务执行路径选择方法。整个最短执行路径选择的过程包括相邻节间的跳数估计算法、线性类型组合服务最短执行路径选择、并发类型组合服务最短执行路径选择三个部分。本方法在保证服务执行成功率的基础上,大大降低了平均执行路径长度,减少了数据传输的时间和缩短了服务应答的时间,从而更好地适应无线自组织网络环境。
-
公开(公告)号:CN117331835A
公开(公告)日:2024-01-02
申请号:CN202311322798.7
申请日:2023-10-12
Applicant: 复旦大学
IPC: G06F11/36 , G06F16/2452
Abstract: 本发明涉及数据集的处理方法,包括:接收多个第一SQL语句‑自然语言对;对于每个所述第一SQL语句‑自然语言对,将其中的第一SQL语句切分为SQL语句单元,将其中的第一自然语言切分为自然语言单元,并将所述SQL语句单元和所述自然语言单元对齐;将多个所述SQL语句单元和对齐的所述自然语言单元组合为多个第二SQL语句‑自然语言对;将多个所述第二SQL语句‑自然语言对分为训练集和测试集。本发明还涉及SQL‑自然语言翻译模型的测试的方法、数据集的处理和SQL‑自然语言翻译模型的测试装置,以及计算设备集群、计算机程序产品和介质。
-
-
-
-
-
-
-
-
-