数据集蒸馏方法、计算机设备及存储介质

    公开(公告)号:CN119357733A

    公开(公告)日:2025-01-24

    申请号:CN202411294683.6

    申请日:2024-09-14

    Abstract: 本申请涉及一种数据集蒸馏方法、计算机设备及存储介质。所述方法包括:获取原始数据集,所述原始数据集包括原始数据以及原始数据标签;基于合成数据标签确定合成数据集中的合成数据,所述合成数据标签基于所述原始数据标签以及预设标签格式确定,所述合成数据集与目标网络模型匹配;基于所述合成数据以及第一预设规则,更新所述目标网络模型的模型参数,并确定所述合成数据的更新梯度;基于所述原始数据、所述更新梯度、更新后的目标网络模型以及第二预设规则更新所述合成数据集。本申请提高了蒸馏后合成数据集的有效性。

    一种基于持久化学习索引的数据存储系统及方法

    公开(公告)号:CN118312092A

    公开(公告)日:2024-07-09

    申请号:CN202410200910.8

    申请日:2024-02-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于持久化学习索引的数据存储系统及方法,包括:持久化内存和与其耦接的动态随机存取内存;所述持久化内存中存储有内部节点层以及叶节点层;其中,内部节点层是由若干个内部节点组成的树形结构,每一内部节点包含一内部节点模型和一槽位数组;叶节点层是由叶节点组成的双向链表,每一叶节点包含一头部信息和一键值对块数组;其中,最底层的内部节点的槽位数组中存储了指向叶节点和块元数据数组的指针;所述动态随机存取内存中存储有块元数据,所述块元数据用于存储叶节点中每个键值对块数组中键的指纹信息。所述系统还包括:持久化内存中存储的溢出缓存和动态随机存取内存中存储的缓存元数据。

    一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607B

    公开(公告)日:2024-03-22

    申请号:CN202110894758.4

    申请日:2021-08-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

    基于浅层特征预训练的联邦学习大模型进行文本分类的方法

    公开(公告)号:CN116522220A

    公开(公告)日:2023-08-01

    申请号:CN202310401602.7

    申请日:2023-04-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于浅层特征预训练的联邦学习大模型进行文本分类的方法,包括:服务端获取全局模型;客户端获取全局模型的初始参数,并根据全局模型的初始参数和服务端指定的待训练的处理层编号l构建本地模型,对本地模型进行训练;客户端将更新的第l层处理层的参数以及输出层参数上传至服务端进行聚合,得到更新的参数,更新服务端的全局模型,并将更新的参数下发给各个客户端进行新一轮的联邦学习训练;客户端从服务端得到更新的参数和服务端新指定的待训练的处理层编号l',重复进行联邦学习;完成联邦学习后,服务端使用各个客户端聚合得到的参数替换全局模型的对应参数,得到进一步预训练好的全局模型,微调后进行专业领域的文本分类。

    一种内存数据库中的工作负载自适应学习型索引方法

    公开(公告)号:CN113032390B

    公开(公告)日:2023-03-21

    申请号:CN202110162262.8

    申请日:2021-02-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种内存数据库中的工作负载自适应学习型索引方法。该方法结合基数树和具有最大误差界的分段线性模型,通过机器学习模型利用数据分布来降低索引的内存占用,同时保持稳定的查询性能。在此基础上,使用一种高效的插入缓冲来降低数据插入更新的成本,同时为了缓解数据插入对索引性能的影响,使用两种工作负载自适应的重组优化方法,有针对性地对工作负载中点查询和范围查询涉及的热点数据进行优化。该方法具有较高的构建效率和较低的内存占用,也保证了相对高效的查询性能,并且能够很好地支持插入和更新;同时通过感知查询工作负载有针对性地进行重组优化,以较低的代价降低了插入对于索引性能的影响。

    一种基于中间语法树的多轮自然语言转SQL方法

    公开(公告)号:CN112069199B

    公开(公告)日:2022-08-05

    申请号:CN202010842798.X

    申请日:2020-08-20

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。

    一种基于低参数增长快照模型的连续学习方法

    公开(公告)号:CN114580633A

    公开(公告)日:2022-06-03

    申请号:CN202210225240.6

    申请日:2022-03-09

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于低参数增长快照模型的连续学习方法。本发明将参与训练的模型分为快照模型以及全局模型,全局模型通过顺序学习任务序列中的所有任务以此来接收所有任务中所需要的知识,快照模型为任务流中的每个独立任务训练出来用于存储知识的模型。在学习当前到达的任务时,将学习流程分为两个阶段,第一个阶段是对快照模型进行学习,第二个阶段是利用习得的快照模型来指导约束全局模型学习。本发明利用低参数增长的方法来实现空间高效的快照模型存储,以此来消解对历史数据的依赖,保护用户隐私。使用全局模型保留所有任务的信息,在推断阶段不会引入额外的计算代价。

    一种优化叶子节点合并操作的高效索引方法

    公开(公告)号:CN111475508B

    公开(公告)日:2022-05-03

    申请号:CN202010244529.3

    申请日:2020-03-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种优化叶子节点合并操作的高效索引方法。该方法的特点是引入了新的一种适合NVM的叶子节点结构设计和高效原地合并操作。该方法首先将索引分成存储在DRAM中的缓冲B树和存储在NVM中的基础B树。在索引执行写操作的过程中,首先写入缓冲B树的日志文件里,再修改缓冲B树;当所述缓冲B树的容量超过阈值,借助基础B树叶子节点结构设计,将缓冲B树通过原地合并操作合入NVM上的基础B树,并通过WBINVD指令高效地将脏数据持久化到NVM。当原地合并操作完成后,清空缓存B树以及NVM上的日志文件,完成对所述写操作的索引过程。该索引方法能够有效地降低对于NVM的写入次数,降低NVM的损耗,提升写入性能。

    一种新型的半监督文本实体信息抽取方法

    公开(公告)号:CN111274814B

    公开(公告)日:2021-09-24

    申请号:CN201911369784.4

    申请日:2019-12-26

    Applicant: 浙江大学

    Abstract: 本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合;建立有、无监督学习部分,有、无标注的文档分别有、无监督学习;文档和实体类型输入实体抽取模块输出实体信息;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相加为损失;文档输入实体抽取模块获得每个实体类型的损失;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相乘后相加构成损失;两部分加权计算获得总损失,优化训练获得模型参数;将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据,显著增强模型性能,在小样本标注数据的条件下有着显著的提升,也适用于零样本学习的半监督文本数据处理。

    一种图像数据多标签分类方法

    公开(公告)号:CN111797911A

    公开(公告)日:2020-10-20

    申请号:CN202010573202.0

    申请日:2020-06-22

    Applicant: 浙江大学

    Abstract: 本发明公开了一种图像数据多标签分类方法,该方法首先构建图片的拓扑关系,然后用基于协作的多标签传播算法(CMLP)来解决半监督多标签学习(SSML)问题,从而获得无标记图片的置信矩阵 本发明能够充分地利用多标签图像数据的多个标签之间的相关性来提升图片的多标签分类预测性能,提高了准确度和鲁棒性,同时能够挖掘无监督图像数据的分布信息,很好地解决半监督多标签学习问题,其性能优于现有的半监督图像数据多标签分类方法。

Patent Agency Ranking