数据协同查询方法、装置、计算机设备及存储介质

    公开(公告)号:CN119357234A

    公开(公告)日:2025-01-24

    申请号:CN202411296629.5

    申请日:2024-09-14

    Abstract: 本申请涉及一种数据协同查询方法、装置、计算机设备及存储介质。所述方法包括:获取查询信息,并基于所述查询信息确定查询关系算子与至少一个目标模型算子;在数据库中预设执行规则,并基于所述目标模型算子确定目标模型在数据库中的所述执行规则,所述执行规则基于所述目标模型的模型参数以及模型计算图确定;基于所述查询关系算子以及所述执行规则,从所述数据库中确定查询结果。本申请实施例可以基于查询关系算子以及数据库中的执行规则,自动实现数据查询过程,得到数据查询结果,而不再需要用户手动解析目标模型,以及根据目标模型手动编写大量的SQL。本申请不仅降低了人工成本,还有效缩短了数据查询的时间,进而显著提高了数据查询的效率。

    一种基于持久化学习索引的数据存储系统及方法

    公开(公告)号:CN118312092A

    公开(公告)日:2024-07-09

    申请号:CN202410200910.8

    申请日:2024-02-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于持久化学习索引的数据存储系统及方法,包括:持久化内存和与其耦接的动态随机存取内存;所述持久化内存中存储有内部节点层以及叶节点层;其中,内部节点层是由若干个内部节点组成的树形结构,每一内部节点包含一内部节点模型和一槽位数组;叶节点层是由叶节点组成的双向链表,每一叶节点包含一头部信息和一键值对块数组;其中,最底层的内部节点的槽位数组中存储了指向叶节点和块元数据数组的指针;所述动态随机存取内存中存储有块元数据,所述块元数据用于存储叶节点中每个键值对块数组中键的指纹信息。所述系统还包括:持久化内存中存储的溢出缓存和动态随机存取内存中存储的缓存元数据。

    一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607B

    公开(公告)日:2024-03-22

    申请号:CN202110894758.4

    申请日:2021-08-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

    基于浅层特征预训练的联邦学习大模型进行文本分类的方法

    公开(公告)号:CN116522220A

    公开(公告)日:2023-08-01

    申请号:CN202310401602.7

    申请日:2023-04-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于浅层特征预训练的联邦学习大模型进行文本分类的方法,包括:服务端获取全局模型;客户端获取全局模型的初始参数,并根据全局模型的初始参数和服务端指定的待训练的处理层编号l构建本地模型,对本地模型进行训练;客户端将更新的第l层处理层的参数以及输出层参数上传至服务端进行聚合,得到更新的参数,更新服务端的全局模型,并将更新的参数下发给各个客户端进行新一轮的联邦学习训练;客户端从服务端得到更新的参数和服务端新指定的待训练的处理层编号l',重复进行联邦学习;完成联邦学习后,服务端使用各个客户端聚合得到的参数替换全局模型的对应参数,得到进一步预训练好的全局模型,微调后进行专业领域的文本分类。

    一种内存数据库中的工作负载自适应学习型索引方法

    公开(公告)号:CN113032390B

    公开(公告)日:2023-03-21

    申请号:CN202110162262.8

    申请日:2021-02-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种内存数据库中的工作负载自适应学习型索引方法。该方法结合基数树和具有最大误差界的分段线性模型,通过机器学习模型利用数据分布来降低索引的内存占用,同时保持稳定的查询性能。在此基础上,使用一种高效的插入缓冲来降低数据插入更新的成本,同时为了缓解数据插入对索引性能的影响,使用两种工作负载自适应的重组优化方法,有针对性地对工作负载中点查询和范围查询涉及的热点数据进行优化。该方法具有较高的构建效率和较低的内存占用,也保证了相对高效的查询性能,并且能够很好地支持插入和更新;同时通过感知查询工作负载有针对性地进行重组优化,以较低的代价降低了插入对于索引性能的影响。

    一种基于中间语法树的多轮自然语言转SQL方法

    公开(公告)号:CN112069199B

    公开(公告)日:2022-08-05

    申请号:CN202010842798.X

    申请日:2020-08-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。

    一种基于低参数增长快照模型的连续学习方法

    公开(公告)号:CN114580633A

    公开(公告)日:2022-06-03

    申请号:CN202210225240.6

    申请日:2022-03-09

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于低参数增长快照模型的连续学习方法。本发明将参与训练的模型分为快照模型以及全局模型,全局模型通过顺序学习任务序列中的所有任务以此来接收所有任务中所需要的知识,快照模型为任务流中的每个独立任务训练出来用于存储知识的模型。在学习当前到达的任务时,将学习流程分为两个阶段,第一个阶段是对快照模型进行学习,第二个阶段是利用习得的快照模型来指导约束全局模型学习。本发明利用低参数增长的方法来实现空间高效的快照模型存储,以此来消解对历史数据的依赖,保护用户隐私。使用全局模型保留所有任务的信息,在推断阶段不会引入额外的计算代价。

    一种优化叶子节点合并操作的高效索引方法

    公开(公告)号:CN111475508B

    公开(公告)日:2022-05-03

    申请号:CN202010244529.3

    申请日:2020-03-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种优化叶子节点合并操作的高效索引方法。该方法的特点是引入了新的一种适合NVM的叶子节点结构设计和高效原地合并操作。该方法首先将索引分成存储在DRAM中的缓冲B树和存储在NVM中的基础B树。在索引执行写操作的过程中,首先写入缓冲B树的日志文件里,再修改缓冲B树;当所述缓冲B树的容量超过阈值,借助基础B树叶子节点结构设计,将缓冲B树通过原地合并操作合入NVM上的基础B树,并通过WBINVD指令高效地将脏数据持久化到NVM。当原地合并操作完成后,清空缓存B树以及NVM上的日志文件,完成对所述写操作的索引过程。该索引方法能够有效地降低对于NVM的写入次数,降低NVM的损耗,提升写入性能。

Patent Agency Ranking