针对分割学习数据推断攻击的防御方法、电子设备、介质

    公开(公告)号:CN118673319A

    公开(公告)日:2024-09-20

    申请号:CN202410714775.9

    申请日:2024-06-04

    IPC分类号: G06F18/214 G06N3/084

    摘要: 本发明公开了一种针对分割学习数据推断攻击的防御方法、电子设备、介质,应用于客户端,包括:获取隐私训练数据,随机生成C类数据,将每类数据打乱插入到隐私训练数据中作为客户端的训练数据集;将训练数据集输入至客户端模型中,输出得到中间特征;接收服务器模型下发的激活梯度;其中,所述激活梯度为服务器模型基于中间特征及对应的标签计算得到的损失值,根据损失值在服务器模型上进行后向传播更新服务器模型,输出激活梯度;基于激活梯度更新客户端模型;使得攻击者端将中间特征并输入至训练好的辅助模型h,输出扭曲目标特征空间Z;扭曲目标特征空间Z输入至训练好的解码器g‑1,无法得到反演重建结果,从而完成防御。

    一种基于持久化学习索引的数据存储系统及方法

    公开(公告)号:CN118312092A

    公开(公告)日:2024-07-09

    申请号:CN202410200910.8

    申请日:2024-02-23

    申请人: 浙江大学

    摘要: 本发明公开了一种基于持久化学习索引的数据存储系统及方法,包括:持久化内存和与其耦接的动态随机存取内存;所述持久化内存中存储有内部节点层以及叶节点层;其中,内部节点层是由若干个内部节点组成的树形结构,每一内部节点包含一内部节点模型和一槽位数组;叶节点层是由叶节点组成的双向链表,每一叶节点包含一头部信息和一键值对块数组;其中,最底层的内部节点的槽位数组中存储了指向叶节点和块元数据数组的指针;所述动态随机存取内存中存储有块元数据,所述块元数据用于存储叶节点中每个键值对块数组中键的指纹信息。所述系统还包括:持久化内存中存储的溢出缓存和动态随机存取内存中存储的缓存元数据。

    一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607B

    公开(公告)日:2024-03-22

    申请号:CN202110894758.4

    申请日:2021-08-05

    申请人: 浙江大学

    摘要: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

    基于浅层特征预训练的联邦学习大模型进行文本分类的方法

    公开(公告)号:CN116522220A

    公开(公告)日:2023-08-01

    申请号:CN202310401602.7

    申请日:2023-04-07

    申请人: 浙江大学

    摘要: 本发明公开了一种基于浅层特征预训练的联邦学习大模型进行文本分类的方法,包括:服务端获取全局模型;客户端获取全局模型的初始参数,并根据全局模型的初始参数和服务端指定的待训练的处理层编号l构建本地模型,对本地模型进行训练;客户端将更新的第l层处理层的参数以及输出层参数上传至服务端进行聚合,得到更新的参数,更新服务端的全局模型,并将更新的参数下发给各个客户端进行新一轮的联邦学习训练;客户端从服务端得到更新的参数和服务端新指定的待训练的处理层编号l',重复进行联邦学习;完成联邦学习后,服务端使用各个客户端聚合得到的参数替换全局模型的对应参数,得到进一步预训练好的全局模型,微调后进行专业领域的文本分类。

    一种内存数据库中的工作负载自适应学习型索引方法

    公开(公告)号:CN113032390B

    公开(公告)日:2023-03-21

    申请号:CN202110162262.8

    申请日:2021-02-05

    申请人: 浙江大学

    IPC分类号: G06F16/22

    摘要: 本发明公开了一种内存数据库中的工作负载自适应学习型索引方法。该方法结合基数树和具有最大误差界的分段线性模型,通过机器学习模型利用数据分布来降低索引的内存占用,同时保持稳定的查询性能。在此基础上,使用一种高效的插入缓冲来降低数据插入更新的成本,同时为了缓解数据插入对索引性能的影响,使用两种工作负载自适应的重组优化方法,有针对性地对工作负载中点查询和范围查询涉及的热点数据进行优化。该方法具有较高的构建效率和较低的内存占用,也保证了相对高效的查询性能,并且能够很好地支持插入和更新;同时通过感知查询工作负载有针对性地进行重组优化,以较低的代价降低了插入对于索引性能的影响。

    一种基于中间语法树的多轮自然语言转SQL方法

    公开(公告)号:CN112069199B

    公开(公告)日:2022-08-05

    申请号:CN202010842798.X

    申请日:2020-08-20

    申请人: 浙江大学

    IPC分类号: G06F16/242 G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。