一种面向双层索引结构Bindex的数据写入优化方法

    公开(公告)号:CN117032564A

    公开(公告)日:2023-11-10

    申请号:CN202310853977.7

    申请日:2023-07-13

    Abstract: 本发明属于数据库技术领域,具体为一种面向双层索引结构Bindex的数据写入优化方法。本发明首先提供双层索引结构Bindex第二层的混合结构,其包括位置标号序列按照区域扩展而成的多组数据内存块,以及每组数据内存块对应的块信息数组;同一块内的存储的值保持无序;块信息数组包括数据块的最小值、块内存储值的数量和块内存地址;针对该结构的写入优化方法包含无序写入及批量更新:无序写入是写入新数据时确定数据范围后不进行排序,直接将对应位置序号插入在对应数据块尾部;在此基础上应用批量更新,一次性处理大批量新增数据。本发明避免了原索引数据块写入新数据过程中的排序开销,提高了索引结构的写入性能,同时还保证了索引的有效性。

    生成数据库的查询语句集合的方法、训练排序模型的方法

    公开(公告)号:CN116756167A

    公开(公告)日:2023-09-15

    申请号:CN202310545980.2

    申请日:2023-05-15

    Applicant: 复旦大学

    Abstract: 本申请涉及信息技术领域,公开了一种用于生成数据库的查询语句集合的方法、训练排序模型的方法,生成数据库的查询语句集合的方法包括:标注步骤,从数据库的多个样本结构化查询语言SQL语句中提取出多个关键词,并获取每个关键词的语义标注;重组步骤,将每个样本SQL语句拆分成多个查询单元,并基于预设重组规则,将多个查询单元进行多次重组,得到多个候选SQL语句;转换步骤,基于多个语义标注,将每个候选SQL语句转换为模板语言语句,得到多个模板语言语句,其中,多个候选SQL语句和多个模板语言语句形成查询语句集合。本发明可以提高数据查询结果的准确率。

    数据分析中的数据过滤规则建模方法

    公开(公告)号:CN110175191B

    公开(公告)日:2023-06-27

    申请号:CN201910401717.X

    申请日:2019-05-14

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种数据分析中的数据过滤规则建模方法。本发明的数据过滤规则建模方法主要包含三个部分:(1)数据列分析过滤(2)数据范围分析过滤(3)结果集自动可视化。本发明通过合理的设定相关的规则解决如何在数据分析中应用数据过滤规则建立分析过滤模型,利用模型分析过滤数据并直观的展示数据。本发明可方便用户快速筛选数据并找到感兴趣的数据子集,分析与挖掘数据项之间联系。

    基于机器学习的近似查询优化系统

    公开(公告)号:CN114911844A

    公开(公告)日:2022-08-16

    申请号:CN202210515794.X

    申请日:2022-05-11

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种基于机器学习的近似查询优化系统。本发明系统包括数据诱导谓词和抽样器参数优化两部分;前者将一张表上的谓词转换为连接表上的诱导谓词,将谓词信息横向传递到其它表上来实现数据跳过,即让各表的输入数据变为各自的分区子集,从而引导查询优化器在削减后的数据上找出更好的查询计划;后者在数据诱导谓词部分找出的含诱导谓词的查询计划上插入抽样器来获取一系列候选查询计划,并通过训练深度学习模型来预测候选查询计划中抽样器的抽样率取值,从而在查询优化过程中降低局部数据与全局数据分布不一致时的负面影响。本发明在为用户提供查询误差保障性的同时降低查询执行时延。

    大型语料库上的快速文本聚类方法

    公开(公告)号:CN108228721B

    公开(公告)日:2021-06-04

    申请号:CN201711290927.3

    申请日:2017-12-08

    Applicant: 复旦大学

    Abstract: 本发明属于关系数据库技术领域,具体为一种大型语料库上的快速文本聚类方法。由于文本数据通常具有高维和稀疏的特征,单纯基于数据相似度的聚类方法难以获得较好的效果,而基于生成模型的方法如狄利克雷多项混合模型在表现上更加突出。本发明通过使用狄利克雷分布的对称先验和构造索引来进行优化,使总时间仅依赖于文档中不同单词的个数,从而在篇幅较长的文档中也能高效运行。

    一种高效的文本区间热词查询方法

    公开(公告)号:CN106874430B

    公开(公告)日:2021-06-04

    申请号:CN201710059191.2

    申请日:2017-01-23

    Applicant: 复旦大学

    Abstract: 本发明属于电子信息技术领域,具体为高效的文本区间热词查询方法。现有的热词提取算法一般面向挖掘任务,时间复杂度较高,难以直接应用于热词的在线查询处理。本发明方法包括两个阶段:利用时间序列划分和范围查询的思想,对原始文本数据D进行预处理;数据预处理的基础上,采用优化算法EHWE,对给定查询q的时间范围以及需要提取的热词个数k,计算确定所需热词。与现有的面向挖掘的算法相比,EHWE算法能够在保证计算结果准确率的前提下,有效提高热词在线查询的效率。实验结果表明,与现有的面向挖掘的算法相比,EHWE算法在CNN,BBC和NYT三个数据集涉及的整个时间范围上的运行时间分别减少59.7%,65.1%和75.5%。

    近似查询处理中的样本调节系统

    公开(公告)号:CN112380250A

    公开(公告)日:2021-02-19

    申请号:CN202011106056.7

    申请日:2020-10-15

    Applicant: 复旦大学

    Abstract: 本发明属于数据分析技术领域,具体为一种近似查询处理中的样本调节系统。本发明系统包括查询分析器、查询执行器、样本生成器、样本调节器;查询分析器利用物化样本在线回答查询,根据物化样本的统计信息确定查询在物化样本上执行或者在原始数据集上执行;样本生成器和样本调节器负责离线构造、删除和调整更新物化样本,包括:根据用户查询,生成抽象样本;根据样本物化策略对一些抽象样本进行物化,并根据存储资源限制删除已有的物化样本;定期评估物化样本的效用,通过强化学习模型学习更新样本物化策略,并与系统中已经存在的物化样本集进行对比,以便生成更好的物化样本。本发明可帮助分析人员及时从大数据中获取查询结果,减少查询等待时间。

    针对探索性查询的高效抽样方法

    公开(公告)号:CN108776707A

    公开(公告)日:2018-11-09

    申请号:CN201810625076.1

    申请日:2018-06-17

    Applicant: 复旦大学

    Abstract: 本发明属于数据仓库技术领域,具体为一种针对探索性查询的高效抽样方法。本发明方法包括:根据收集到的用户历史查询记录,将整个数据集划分成若干个抽样块,并构建一棵抽样块索引树来检索所有的抽样块;对于每一个抽样块,根据用户限定的总体样本空间大小限制,生成k个基于优化的分层抽样样本集;运行时,根据用户提交的查询,从抽样块索引树中找到所有有关的抽样块,从每个抽样块中的k个样本集合中取出最优的样本集进行近似结果计算并返回;选取最优样本集时,选出与目标查询分组条件下最优分层抽样策略距离最小的预生成策略;本发明能够成功匹配更多的探索性查询并返回更为精确的结果。

    一种层次关系数据上关键字检索结果的聚合摘要方法

    公开(公告)号:CN102214216B

    公开(公告)日:2013-02-27

    申请号:CN201110150869.0

    申请日:2011-06-07

    Applicant: 复旦大学

    Inventor: 何震瀛 胡昊 汪卫

    Abstract: 本发明属于关系数据库技术领域,具体为一种层次关系数据上关键字检索结果的聚合摘要方法。该方法的步骤为:给定具有层次关系H的关系数据库D和其上的一个检索Q以及n个检索结果S,S中为每一条结果元组t1、t2、…、tn,根据H上的层次关系,按照最低上层最小覆盖聚集的原则采用按序连接方法将n条检索结果t1、t2、…、tn聚合成为最大最低上层最小覆盖聚集,并对这些聚合结果根据最大覆盖的原则,以迭代查找最大覆盖,在查找的过程中进行剪枝,从而找出贪心结果I。本发明在聚合过程中根据层次关系减少了连接操作,在摘要过程中引入剪枝方法减少时间代价,从而使聚合摘要效率更高。

    面向服务的自组织网络中基于分簇的服务发布和发现方法

    公开(公告)号:CN101163158B

    公开(公告)日:2012-02-29

    申请号:CN200710170787.6

    申请日:2007-11-22

    Applicant: 复旦大学

    Abstract: 本发明属于自组织网络技术领域,具体是一种面向服务的自组织网络上基于分簇的服务发布和发现方法,本方法分为簇维护、服务发布和服务发现三个部分。簇维护分为分簇、簇更新两部分;服务发布包括服务信息建立和服务信息更新两个部分;服务发现指在完成分簇和服务发布以后,节点通过簇头来发现自组织网络上存在的基本服务。本发明能够有效地避免已有服务发布和服务发现方法存在的广播风暴现象;在本方法中还可以使用可替代服务,增强服务发现的效率。

Patent Agency Ranking