-
公开(公告)号:CN118939757A
公开(公告)日:2024-11-12
申请号:CN202410990608.7
申请日:2024-07-23
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/33 , G06F16/338 , G06F16/31 , G06F40/216
Abstract: 本发明公开了一种基于大语言模型的零样本跨语言重排序方法、电子设备、介质,包括:获取若干语言种类对应的查询,以及若干语言种类对应的文档数据;对每一语言种类对应的文档数据建立词条到文档的映射,得到对应的倒排索引;将查询输入至该语言种类对应的倒排索引,得到每一查询对应的第一重排文档列表;对于每一查询,将查询分解为若干个子查询,对该查询对应的第一重排文档列表中的每一文档设置唯一标志符;设置提示词模板,将查询、子查询、第一重排文档列表、每一文档对应的唯一标志符、提示词模板输入至大语言模型中,输出每一文档与查询的相关性标志符排序,得到每一查询对应的第二重排文档列表。
-
公开(公告)号:CN118569356A
公开(公告)日:2024-08-30
申请号:CN202410729737.0
申请日:2024-06-06
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06N3/098 , G06N3/0475 , G06N3/045 , G06N3/094 , G06N5/04 , H04L67/10 , G06V10/82 , G06V10/94 , G06V10/764 , G16H50/20
Abstract: 本发明公开了一种基于分组生成及联邦学习的业务执行方法、设备、介质,应用于客户端,包括:接收服务器下发的基准数据集、初始化的业务执行网络和生成对抗网络;利用本地数据集对业务执行网络进行训练,从而在基准数据集上进行推断,统计各标签的准确率组成向量;每一组别参与联邦学习的每轮迭代训练过程,包括对生成对抗网络进行训练;将高斯噪声输入随机选取的若干个经服务器聚合得到的全局对抗生成模型得到合成样本集;其中,每一组别是服务器基于经阈值截断、随机翻转的准确率组成向量对客户端进行分组得到;利用合成样本集和本地数据集对重新初始化的业务执行网络进行训练;接收经服务器聚合得到的全局业务执行网络,以此执行业务任务。
-
公开(公告)号:CN119357733A
公开(公告)日:2025-01-24
申请号:CN202411294683.6
申请日:2024-09-14
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F18/24 , G06F18/22 , G06N3/084 , G06N3/0455
Abstract: 本申请涉及一种数据集蒸馏方法、计算机设备及存储介质。所述方法包括:获取原始数据集,所述原始数据集包括原始数据以及原始数据标签;基于合成数据标签确定合成数据集中的合成数据,所述合成数据标签基于所述原始数据标签以及预设标签格式确定,所述合成数据集与目标网络模型匹配;基于所述合成数据以及第一预设规则,更新所述目标网络模型的模型参数,并确定所述合成数据的更新梯度;基于所述原始数据、所述更新梯度、更新后的目标网络模型以及第二预设规则更新所述合成数据集。本申请提高了蒸馏后合成数据集的有效性。
-
公开(公告)号:CN119578603A
公开(公告)日:2025-03-07
申请号:CN202411481060.X
申请日:2024-10-22
Applicant: 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06Q10/04 , G06F18/241 , G06F18/27 , G06F123/02
Abstract: 本申请涉及一种预算指标预测方法、装置、计算机设备及存储介质。方法包括:获取多个预算指标,所述多个预算指标包括待预测主指标以及修正指标;将每个预算指标输入匹配的预算指标预测模型,分别输出得到每个预算指标对应的预测指标,所述预测指标包括与所述待预测主指标对应的待修正预测主指标、与所述修正指标对应的修正预测指标;基于所述待修正预测主指标、所述修正预测指标以及指标关联模型,确定所述待修正预测主指标与所述修正预测指标的目标关联值,所述指标关联模型用于确定输入的不同预算指标之间的关联性大小;基于所述目标关联值修正所述待修正预测主指标,确定所述待预测主指标的预算指标预测结果。本申请能够提高预算预测的准确度。
-
公开(公告)号:CN113657607A
公开(公告)日:2021-11-16
申请号:CN202110894758.4
申请日:2021-08-05
Applicant: 浙江大学
Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。
-
公开(公告)号:CN120045583A
公开(公告)日:2025-05-27
申请号:CN202510073091.X
申请日:2025-01-17
Applicant: 浙江大学
IPC: G06F16/2452 , G06F16/242 , G06F18/241 , G06F18/214 , G06N3/045
Abstract: 本发明公开了一种基于认知增强的大语言模型自然语言问题到SQL查询的翻译方法。方法包括先根据数据库中用户提出的自然语言问题依次进行SQL语句处理和合并处理,得到翻译原始数据集,然后对翻译原始数据集依次进行筛选处理、模板处理、增广处理和合并处理,得到翻译数据集,再将翻译数据集输入到关键词预测分类模型中进行训练,得到训练完成的关键词预测分类模型,最终对用户提出的待翻译自然语言问题进行综合处理得到用户提出的待翻译自然语言问题对应的查询结果。本发明实现了优化大语言模型在自然语言问题到SQL查询任务的不同环节的有益效果,取得了增强了大语言模型对自然语言问题到SQL查询任务和SQL语言的理解的优势。
-
公开(公告)号:CN118312092A
公开(公告)日:2024-07-09
申请号:CN202410200910.8
申请日:2024-02-23
Applicant: 浙江大学
IPC: G06F3/06 , G06F12/0893 , G06F12/0877
Abstract: 本发明公开了一种基于持久化学习索引的数据存储系统及方法,包括:持久化内存和与其耦接的动态随机存取内存;所述持久化内存中存储有内部节点层以及叶节点层;其中,内部节点层是由若干个内部节点组成的树形结构,每一内部节点包含一内部节点模型和一槽位数组;叶节点层是由叶节点组成的双向链表,每一叶节点包含一头部信息和一键值对块数组;其中,最底层的内部节点的槽位数组中存储了指向叶节点和块元数据数组的指针;所述动态随机存取内存中存储有块元数据,所述块元数据用于存储叶节点中每个键值对块数组中键的指纹信息。所述系统还包括:持久化内存中存储的溢出缓存和动态随机存取内存中存储的缓存元数据。
-
公开(公告)号:CN113657607B
公开(公告)日:2024-03-22
申请号:CN202110894758.4
申请日:2021-08-05
Applicant: 浙江大学
Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。
-
-
-
-
-
-
-