数据集蒸馏方法、计算机设备及存储介质

    公开(公告)号:CN119357733A

    公开(公告)日:2025-01-24

    申请号:CN202411294683.6

    申请日:2024-09-14

    Abstract: 本申请涉及一种数据集蒸馏方法、计算机设备及存储介质。所述方法包括:获取原始数据集,所述原始数据集包括原始数据以及原始数据标签;基于合成数据标签确定合成数据集中的合成数据,所述合成数据标签基于所述原始数据标签以及预设标签格式确定,所述合成数据集与目标网络模型匹配;基于所述合成数据以及第一预设规则,更新所述目标网络模型的模型参数,并确定所述合成数据的更新梯度;基于所述原始数据、所述更新梯度、更新后的目标网络模型以及第二预设规则更新所述合成数据集。本申请提高了蒸馏后合成数据集的有效性。

    预算指标预测方法、装置、计算机设备及存储介质

    公开(公告)号:CN119578603A

    公开(公告)日:2025-03-07

    申请号:CN202411481060.X

    申请日:2024-10-22

    Abstract: 本申请涉及一种预算指标预测方法、装置、计算机设备及存储介质。方法包括:获取多个预算指标,所述多个预算指标包括待预测主指标以及修正指标;将每个预算指标输入匹配的预算指标预测模型,分别输出得到每个预算指标对应的预测指标,所述预测指标包括与所述待预测主指标对应的待修正预测主指标、与所述修正指标对应的修正预测指标;基于所述待修正预测主指标、所述修正预测指标以及指标关联模型,确定所述待修正预测主指标与所述修正预测指标的目标关联值,所述指标关联模型用于确定输入的不同预算指标之间的关联性大小;基于所述目标关联值修正所述待修正预测主指标,确定所述待预测主指标的预算指标预测结果。本申请能够提高预算预测的准确度。

    一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607A

    公开(公告)日:2021-11-16

    申请号:CN202110894758.4

    申请日:2021-08-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

    基于认知增强的大语言模型自然语言问题到SQL查询的翻译方法

    公开(公告)号:CN120045583A

    公开(公告)日:2025-05-27

    申请号:CN202510073091.X

    申请日:2025-01-17

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于认知增强的大语言模型自然语言问题到SQL查询的翻译方法。方法包括先根据数据库中用户提出的自然语言问题依次进行SQL语句处理和合并处理,得到翻译原始数据集,然后对翻译原始数据集依次进行筛选处理、模板处理、增广处理和合并处理,得到翻译数据集,再将翻译数据集输入到关键词预测分类模型中进行训练,得到训练完成的关键词预测分类模型,最终对用户提出的待翻译自然语言问题进行综合处理得到用户提出的待翻译自然语言问题对应的查询结果。本发明实现了优化大语言模型在自然语言问题到SQL查询任务的不同环节的有益效果,取得了增强了大语言模型对自然语言问题到SQL查询任务和SQL语言的理解的优势。

    一种基于持久化学习索引的数据存储系统及方法

    公开(公告)号:CN118312092A

    公开(公告)日:2024-07-09

    申请号:CN202410200910.8

    申请日:2024-02-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于持久化学习索引的数据存储系统及方法,包括:持久化内存和与其耦接的动态随机存取内存;所述持久化内存中存储有内部节点层以及叶节点层;其中,内部节点层是由若干个内部节点组成的树形结构,每一内部节点包含一内部节点模型和一槽位数组;叶节点层是由叶节点组成的双向链表,每一叶节点包含一头部信息和一键值对块数组;其中,最底层的内部节点的槽位数组中存储了指向叶节点和块元数据数组的指针;所述动态随机存取内存中存储有块元数据,所述块元数据用于存储叶节点中每个键值对块数组中键的指纹信息。所述系统还包括:持久化内存中存储的溢出缓存和动态随机存取内存中存储的缓存元数据。

    一种面向联邦学习的连续学习方法

    公开(公告)号:CN113657607B

    公开(公告)日:2024-03-22

    申请号:CN202110894758.4

    申请日:2021-08-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。

Patent Agency Ranking