-
公开(公告)号:CN119357733A
公开(公告)日:2025-01-24
申请号:CN202411294683.6
申请日:2024-09-14
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F18/24 , G06F18/22 , G06N3/084 , G06N3/0455
Abstract: 本申请涉及一种数据集蒸馏方法、计算机设备及存储介质。所述方法包括:获取原始数据集,所述原始数据集包括原始数据以及原始数据标签;基于合成数据标签确定合成数据集中的合成数据,所述合成数据标签基于所述原始数据标签以及预设标签格式确定,所述合成数据集与目标网络模型匹配;基于所述合成数据以及第一预设规则,更新所述目标网络模型的模型参数,并确定所述合成数据的更新梯度;基于所述原始数据、所述更新梯度、更新后的目标网络模型以及第二预设规则更新所述合成数据集。本申请提高了蒸馏后合成数据集的有效性。
-
公开(公告)号:CN119539010A
公开(公告)日:2025-02-28
申请号:CN202411472372.4
申请日:2024-10-21
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06N3/082 , G06N3/0455 , G06F18/23 , G06F18/22
Abstract: 本申请涉及机器学习技术领域,提出一种机器学习模型微调方法、系统、服务器和客户端。在该方法中,首先由服务器对机器学习模型的所有网络层进行压缩处理,得到压缩后的目标网络层,并将目标网络层发送至客户端;然后,客户端基于本地的训练数据集对目标网络层的模型参数进行优化更新,并将优化更新后的模型参数发送回服务器;最后,服务器根据接收到的优化更新后的模型参数,对机器学习模型进行微调。采用该方法能够在模型微调的过程中减少传输的模型参数的数量,从而降低敏感信息的泄露风险,提高数据的隐私安全性。
-
公开(公告)号:CN118939757A
公开(公告)日:2024-11-12
申请号:CN202410990608.7
申请日:2024-07-23
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/33 , G06F16/338 , G06F16/31 , G06F40/216
Abstract: 本发明公开了一种基于大语言模型的零样本跨语言重排序方法、电子设备、介质,包括:获取若干语言种类对应的查询,以及若干语言种类对应的文档数据;对每一语言种类对应的文档数据建立词条到文档的映射,得到对应的倒排索引;将查询输入至该语言种类对应的倒排索引,得到每一查询对应的第一重排文档列表;对于每一查询,将查询分解为若干个子查询,对该查询对应的第一重排文档列表中的每一文档设置唯一标志符;设置提示词模板,将查询、子查询、第一重排文档列表、每一文档对应的唯一标志符、提示词模板输入至大语言模型中,输出每一文档与查询的相关性标志符排序,得到每一查询对应的第二重排文档列表。
-
公开(公告)号:CN118569356A
公开(公告)日:2024-08-30
申请号:CN202410729737.0
申请日:2024-06-06
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06N3/098 , G06N3/0475 , G06N3/045 , G06N3/094 , G06N5/04 , H04L67/10 , G06V10/82 , G06V10/94 , G06V10/764 , G16H50/20
Abstract: 本发明公开了一种基于分组生成及联邦学习的业务执行方法、设备、介质,应用于客户端,包括:接收服务器下发的基准数据集、初始化的业务执行网络和生成对抗网络;利用本地数据集对业务执行网络进行训练,从而在基准数据集上进行推断,统计各标签的准确率组成向量;每一组别参与联邦学习的每轮迭代训练过程,包括对生成对抗网络进行训练;将高斯噪声输入随机选取的若干个经服务器聚合得到的全局对抗生成模型得到合成样本集;其中,每一组别是服务器基于经阈值截断、随机翻转的准确率组成向量对客户端进行分组得到;利用合成样本集和本地数据集对重新初始化的业务执行网络进行训练;接收经服务器聚合得到的全局业务执行网络,以此执行业务任务。
-
公开(公告)号:CN119360077A
公开(公告)日:2025-01-24
申请号:CN202411297222.4
申请日:2024-09-14
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06V10/764 , G06V10/74 , G06F40/289 , G06N3/0455 , G06N3/09
Abstract: 本申请涉及一种图像标签标注方法、装置、计算机设备及存储介质。所述方法包括:获取图像信息,图像信息包括图像数据、文本数据以及图像标签,图像标签包括第一类别标记信息;基于图像编码模型确定图像数据的视觉特征序列,并基于文本编码模型分别确定文本特征序列、类别特征;基于视觉特征序列以及文本特征序列确定相似度矩阵,并将相似度矩阵对齐至修正矩阵,以更新图像编码模型,修正矩阵基于图像信息确定;基于更新后的图像编码模型,确定更新后的视觉特征序列,基于更新后的视觉特征序列以及类别特征,确定图像标签的第二类别标记信息;基于第二类别标记信息,对第一类别标记信息中的未知类别进行标注。本申请提高了标签标注准确性、鲁棒性。
-
公开(公告)号:CN118503435B
公开(公告)日:2024-10-11
申请号:CN202410977333.3
申请日:2024-07-22
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/35 , G06F18/214 , G06N3/045 , G06N3/0495 , G06N3/084 , G06N3/0895 , G06N3/096 , G06N3/0455
Abstract: 本发明公开了一种基于知识融合的多未知领域文本分类方法、设备、介质,包括:基于预先训练好的n个教师模型构建2n‑1个教师模型组合;对每一个仅包含一个教师模型的教师模型组合进行第一采样,得到训练好的学生模型及其分类准确率,将教师模型组合‑分类准确率数据对作为初始的观测信息;基于当前的观测信息选择教师模型组合;若被选择的教师模型组合为已被采样的教师模型组合,则将观测信息中最大分类准确率对应的学生模型作为文本分类模型;若被选择的教师模型组合为没有被采样且包含两个及以上教师模型时,对该教师模型组合进行第二采样,得到训练好的学生模型及其分类准确率,更新观测信息;通过文本分类模型确定待分类文本的分类结果。
-
公开(公告)号:CN119939201A
公开(公告)日:2025-05-06
申请号:CN202411853509.0
申请日:2024-12-16
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F18/211 , G06F18/213 , G06F18/241 , G06F18/25 , G06N20/00
Abstract: 本申请公开一种多视图特征选择方法、模型训练方法、设备及程序产品,方法包括:获取第一多视图数据集;第一多视图数据集包括多个第一视图,任一第一视图中包括一个或多个第一特征子集,第一特征子集中包括原始数据集中原始数据对应的第一特征值;确定每个第一特征子集中第一特征值的分布差异;根据第一特征子集中第一特征值的分布差异,确定第一特征子集的权重;根据第一特征子集的权重,从多个第一特征子集中确定最优第一特征子集。本发明通过关注不同类别原始数据的第一特征值的分布差异层面,而不是去关注不同类别原始数据的数量差异层面,实现对所有类别的原始数据进行平等对待,以减轻类别不平衡问题的影响,从而特征选择的效果也更好。
-
公开(公告)号:CN118673319A
公开(公告)日:2024-09-20
申请号:CN202410714775.9
申请日:2024-06-04
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F18/214 , G06N3/084
Abstract: 本发明公开了一种针对分割学习数据推断攻击的防御方法、电子设备、介质,应用于客户端,包括:获取隐私训练数据,随机生成C类数据,将每类数据打乱插入到隐私训练数据中作为客户端的训练数据集;将训练数据集输入至客户端模型中,输出得到中间特征;接收服务器模型下发的激活梯度;其中,所述激活梯度为服务器模型基于中间特征及对应的标签计算得到的损失值,根据损失值在服务器模型上进行后向传播更新服务器模型,输出激活梯度;基于激活梯度更新客户端模型;使得攻击者端将中间特征并输入至训练好的辅助模型h,输出扭曲目标特征空间Z;扭曲目标特征空间Z输入至训练好的解码器g‑1,无法得到反演重建结果,从而完成防御。
-
公开(公告)号:CN118503435A
公开(公告)日:2024-08-16
申请号:CN202410977333.3
申请日:2024-07-22
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/35 , G06F18/214 , G06N3/045 , G06N3/0495 , G06N3/084 , G06N3/0895 , G06N3/096 , G06N3/0455
Abstract: 本发明公开了一种基于知识融合的多未知领域文本分类方法、设备、介质,包括:基于预先训练好的n个教师模型构建2n‑1个教师模型组合;对每一个仅包含一个教师模型的教师模型组合进行第一采样,得到训练好的学生模型及其分类准确率,将教师模型组合‑分类准确率数据对作为初始的观测信息;基于当前的观测信息选择教师模型组合;若被选择的教师模型组合为已被采样的教师模型组合,则将观测信息中最大分类准确率对应的学生模型作为文本分类模型;若被选择的教师模型组合为没有被采样且包含两个及以上教师模型时,对该教师模型组合进行第二采样,得到训练好的学生模型及其分类准确率,更新观测信息;通过文本分类模型确定待分类文本的分类结果。
-
公开(公告)号:CN119621511A
公开(公告)日:2025-03-14
申请号:CN202411766273.7
申请日:2024-12-04
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
Abstract: 本申请涉及一种分布式服务的性能剖析方法、系统和存储介质,其中,分布式服务包括多个工作节点,且各工作节点分别部署有本地剖析器;该性能剖析方法包括:接收各本地剖析器采集的针对工作节点上的堆栈跟踪数据,并对堆栈跟踪数据进行聚合处理,得到聚合堆栈数据;根据聚合堆栈数据生成目标火焰图,并基于目标火焰图生成针对分布式服务的目标性能剖析结果。通过本申请,解决了性能剖析难以适应大规模分布式服务的问题。
-
-
-
-
-
-
-
-
-