一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607B

    公开(公告)日:2024-03-22

    申请号:CN202110894758.4

    申请日:2021-08-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

    一种基于中间语法树的多轮自然语言转SQL方法

    公开(公告)号:CN112069199B

    公开(公告)日:2022-08-05

    申请号:CN202010842798.X

    申请日:2020-08-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。

    一种优化叶子节点合并操作的高效索引方法

    公开(公告)号:CN111475508B

    公开(公告)日:2022-05-03

    申请号:CN202010244529.3

    申请日:2020-03-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种优化叶子节点合并操作的高效索引方法。该方法的特点是引入了新的一种适合NVM的叶子节点结构设计和高效原地合并操作。该方法首先将索引分成存储在DRAM中的缓冲B树和存储在NVM中的基础B树。在索引执行写操作的过程中,首先写入缓冲B树的日志文件里,再修改缓冲B树;当所述缓冲B树的容量超过阈值,借助基础B树叶子节点结构设计,将缓冲B树通过原地合并操作合入NVM上的基础B树,并通过WBINVD指令高效地将脏数据持久化到NVM。当原地合并操作完成后,清空缓存B树以及NVM上的日志文件,完成对所述写操作的索引过程。该索引方法能够有效地降低对于NVM的写入次数,降低NVM的损耗,提升写入性能。

    一种面向新型城轨列车大数据的高伸缩分布式索引方法

    公开(公告)号:CN110716933B

    公开(公告)日:2022-03-15

    申请号:CN201910934795.6

    申请日:2019-09-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向新型城轨列车大数据的高伸缩分布式索引方法。针对新型城轨列车大数据采用服务器集群进行存储构建数据库,形成一个图状拓扑结构的服务器集群,为每台服务器分配一个辅键索引范围作为索引区间;将键值类型数据进行分片,分布式地存储到服务器上,每台服务器对本地的数据分片建立分片索引;每台服务器从本地的分片索引中选取中间节点,建立外链索引发布到其他确定服务器上;利用辅键索引处理查询请求。本发明快速定位查找并定位保存了所需数据区块的服务器,建立辅助索引可支持迅速、准确的数据查询功能,解决了键值存储模型缺乏辅助索引的问题,能够提高大数据存储系统的数据检索效率,具有高伸缩性和低延迟的特点。

    一种文本数据转换脚本的执行优化方法

    公开(公告)号:CN109101468B

    公开(公告)日:2020-07-03

    申请号:CN201810873554.0

    申请日:2018-08-02

    Applicant: 浙江大学

    Abstract: 本发明公开了一种文本数据转换脚本的执行优化方法。针对通过网络分布式处理执行的文本数据转换脚本,对文本数据转换脚本进行解析,生成执行计划树;使用基于元组的多重集作为文本数据的数据模型,文本数据转换脚本包含了对多重集的结构和内容进行修改和转换的数据操作;根据转换脚本执行场景的不同,采用对应的执行优化方法;根据优化后得到的执行计划结果,生成逻辑程序处理并运行,从而对大数据平台上的数据进行高效地转换和处理。本发明方法能够应用于数据准备阶段对海量文本数据的处理,通过应用面向文本数据转换脚本的执行优化方法,能够有效地减少文本数据转换脚本在执行时的时空代价,提高数据准备阶段的效率。

    一种基于注意力特征信息的BERT模型融合方法

    公开(公告)号:CN114580660A

    公开(公告)日:2022-06-03

    申请号:CN202210176600.8

    申请日:2022-02-25

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于注意力特征信息的BERT模型融合方法,该方法利用每个原模型对输入文本的隐藏表示信息,来计算每个原模型的权重,然后利用每个原模型的权重信息,对原模型的注意力特征信息进行加权融合,最后利用融合后的注意力特征信息对新模型进行调整,提高新模型的表现效果。该方法可以充分利用BERT模型的注意力特征信息,提高融合后BERT模型的表现效果。相比于其他融合方法,本方法可以有效地完善融合后模型的注意力特征信息,使得融合后的模型对文本的注意力特征更加完整,进而提高融合后模型的表现效果。

    面向新型供电城轨列车大数据运维的NL生成SQL方法

    公开(公告)号:CN110688394B

    公开(公告)日:2021-11-23

    申请号:CN201910934900.6

    申请日:2019-09-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向新型供电城轨列车大数据运维的NL生成SQL方法。从新型供电城轨列车上收集运行时产生的多种数据,整理成各自的结构化数据,存入关系型数据库的多个数据表中;使用预训练模型对自然语言和数据库的表名及列名进行编码,获得两种编码;构建符合语法结构的语法解析树模板,对语法解析树模板中需要填充的部分进行训练和预测;将待查询的自然语言输入深度学习模型获得数据库中需查询的表名信息,生成完整数据库查询语句,执行该数据库查询语句获取所需查询的数据。本发明根据自然语言问句自动产生数据库查询语句,提升了运维数据的工作效率,在不同场景下涉及的数据库多表查询操作时能准确地返回所需查询的数据。

    一种基于中间语法树的多轮自然语言转SQL方法

    公开(公告)号:CN112069199A

    公开(公告)日:2020-12-11

    申请号:CN202010842798.X

    申请日:2020-08-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。

    一种基于图划分的实体对齐优化方法

    公开(公告)号:CN109359172B

    公开(公告)日:2020-12-11

    申请号:CN201810871604.1

    申请日:2018-08-02

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于图划分的实体对齐优化方法。利用组合索引从所有实体中挖掘候选实体对,通过实体的相似度度量方法判别候选实体对是否对齐获得等价实体对,再利用实体之间的相似度关系提出基于图划分的优化算法提升等价实体对对齐的准确性。本发明方法解决了大规模互联网数据的实体对齐问题,能准确完备挖掘出原始数据中相互等价的实体集合。

    一种面向审计的关系数据库聚合代数约束自动挖掘方法

    公开(公告)号:CN111881222A

    公开(公告)日:2020-11-03

    申请号:CN202010686608.X

    申请日:2020-07-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向审计的关系数据库聚合代数约束自动挖掘方法,它是一种智慧审计应用中潜藏于海量数据之中的约束关系挖掘方法。现有的审计规则或由专家构造,或由数据库约束发现方法产生,能实现审计简单业务的目的,但是不足以应付海量数据规模挑战,无法满足审计作业中含统计数值的复杂运算的需求。本发明针对上述不足,将该需求形式化成聚合代数约束,并提供聚合代数约束的挖掘方法,该方法根据数据库的模式信息依次枚举表连接、分组方式和代数表达式,计算分析后得到聚合代数约束。本发明无需人工参与约束挖掘,可以应对计算海量数据带来的时空性能挑战,满足审计统计数值相关的复杂运算需求。

Patent Agency Ranking