-
公开(公告)号:CN119357733A
公开(公告)日:2025-01-24
申请号:CN202411294683.6
申请日:2024-09-14
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F18/24 , G06F18/22 , G06N3/084 , G06N3/0455
Abstract: 本申请涉及一种数据集蒸馏方法、计算机设备及存储介质。所述方法包括:获取原始数据集,所述原始数据集包括原始数据以及原始数据标签;基于合成数据标签确定合成数据集中的合成数据,所述合成数据标签基于所述原始数据标签以及预设标签格式确定,所述合成数据集与目标网络模型匹配;基于所述合成数据以及第一预设规则,更新所述目标网络模型的模型参数,并确定所述合成数据的更新梯度;基于所述原始数据、所述更新梯度、更新后的目标网络模型以及第二预设规则更新所述合成数据集。本申请提高了蒸馏后合成数据集的有效性。
-
公开(公告)号:CN119939201A
公开(公告)日:2025-05-06
申请号:CN202411853509.0
申请日:2024-12-16
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F18/211 , G06F18/213 , G06F18/241 , G06F18/25 , G06N20/00
Abstract: 本申请公开一种多视图特征选择方法、模型训练方法、设备及程序产品,方法包括:获取第一多视图数据集;第一多视图数据集包括多个第一视图,任一第一视图中包括一个或多个第一特征子集,第一特征子集中包括原始数据集中原始数据对应的第一特征值;确定每个第一特征子集中第一特征值的分布差异;根据第一特征子集中第一特征值的分布差异,确定第一特征子集的权重;根据第一特征子集的权重,从多个第一特征子集中确定最优第一特征子集。本发明通过关注不同类别原始数据的第一特征值的分布差异层面,而不是去关注不同类别原始数据的数量差异层面,实现对所有类别的原始数据进行平等对待,以减轻类别不平衡问题的影响,从而特征选择的效果也更好。
-
公开(公告)号:CN119862210A
公开(公告)日:2025-04-22
申请号:CN202510347551.3
申请日:2025-03-24
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/2453 , G06F16/22 , G06F16/2455 , G06F16/248 , G06F40/30
Abstract: 本发明公开了一种基于动态查询编译缓存优化的数据库查询执行方法和装置,属于数据库管理系统领域。接收用户输入的查询语句并构建抽象语法树;根据抽象语法树生成对应的标识符,查找匹配的机器代码,加载并执行能被复用的匹配的机器代码得到执行结果;对没有查找到匹配的机器代码的用户输入的查询语句或匹配的机器代码不能被复用的用户输入的查询语句生成对应的可执行计划树,通过动态编译生成机器代码并优化,得到优化后的机器代码并加载和执行得到执行结果;随后将执行结果发送给用户,并定期清理缓存中的机器代码。本发明精准决定是否复用缓存中的机器代码,从而减少不必要的编译开销,提高查询执行效率。
-
公开(公告)号:CN118503435A
公开(公告)日:2024-08-16
申请号:CN202410977333.3
申请日:2024-07-22
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/35 , G06F18/214 , G06N3/045 , G06N3/0495 , G06N3/084 , G06N3/0895 , G06N3/096 , G06N3/0455
Abstract: 本发明公开了一种基于知识融合的多未知领域文本分类方法、设备、介质,包括:基于预先训练好的n个教师模型构建2n‑1个教师模型组合;对每一个仅包含一个教师模型的教师模型组合进行第一采样,得到训练好的学生模型及其分类准确率,将教师模型组合‑分类准确率数据对作为初始的观测信息;基于当前的观测信息选择教师模型组合;若被选择的教师模型组合为已被采样的教师模型组合,则将观测信息中最大分类准确率对应的学生模型作为文本分类模型;若被选择的教师模型组合为没有被采样且包含两个及以上教师模型时,对该教师模型组合进行第二采样,得到训练好的学生模型及其分类准确率,更新观测信息;通过文本分类模型确定待分类文本的分类结果。
-
公开(公告)号:CN119151016B
公开(公告)日:2025-05-13
申请号:CN202411650247.8
申请日:2024-11-19
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06N20/00 , G06N3/006 , G06F16/242
Abstract: 本申请涉及一种多智能体代理的数据库内的机器学习特征生成方法,包括:根据历史特征集合在数据库内的机器学习模型中的性能指标,确定第一特征集合和第一特征集合的特征描述;根据机器学习任务和历史特征集合,得到第一特征集合对应的特征提示;获取数据库内的大语言模型根据第一特征集合、特征描述和特征提示生成的新特征,并结合第一特征集合和新特征得到第二特征集合;根据历史特征集合和第二特征集合在机器学习模型中的性能指标,确定第三特征集合;分解第三特征集合,直至分解得到的特征集合与第三特征集合匹配,根据分解结果得到执行机器学习任务所需的第四特征集合。采用本方法能够解决数据库内执行机器学习任务困难且准确性低的问题。
-
公开(公告)号:CN119398289A
公开(公告)日:2025-02-07
申请号:CN202411268070.5
申请日:2024-09-10
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06Q10/047 , G06N5/022 , G06N3/063 , G06N10/20
Abstract: 本申请涉及一种基于混合量子算法的路径优化方法、装置、计算机设备和存储介质,其中,该方法包括:获取待优化路径的无向完全加权图的权重邻接矩阵;将权重邻接矩阵输入到预设的量子电路中进行优化,得到第一候选解和对应的第一权重;其中,在量子电路的编码与剪枝的优化过程中,将所有候选解划分为多个步骤;将旅行商在每个步骤中的选择,编码到量子电路中,执行相应的剪枝,以形成包含所有候选解的均匀叠加态;根据第一权重和预设的第一阈值,更新第一候选解,得到目标路径。通过本申请,解决了相关技术中路径规划的效率低下的问题,有效减少编码候选解所需的量子资源,实现在精确规划路径的同时,能够提高路径规划效率。
-
公开(公告)号:CN119360077A
公开(公告)日:2025-01-24
申请号:CN202411297222.4
申请日:2024-09-14
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06V10/764 , G06V10/74 , G06F40/289 , G06N3/0455 , G06N3/09
Abstract: 本申请涉及一种图像标签标注方法、装置、计算机设备及存储介质。所述方法包括:获取图像信息,图像信息包括图像数据、文本数据以及图像标签,图像标签包括第一类别标记信息;基于图像编码模型确定图像数据的视觉特征序列,并基于文本编码模型分别确定文本特征序列、类别特征;基于视觉特征序列以及文本特征序列确定相似度矩阵,并将相似度矩阵对齐至修正矩阵,以更新图像编码模型,修正矩阵基于图像信息确定;基于更新后的图像编码模型,确定更新后的视觉特征序列,基于更新后的视觉特征序列以及类别特征,确定图像标签的第二类别标记信息;基于第二类别标记信息,对第一类别标记信息中的未知类别进行标注。本申请提高了标签标注准确性、鲁棒性。
-
公开(公告)号:CN118503435B
公开(公告)日:2024-10-11
申请号:CN202410977333.3
申请日:2024-07-22
Applicant: 浙江大学 , 杭州高新区(滨江)区块链与数据安全研究院
IPC: G06F16/35 , G06F18/214 , G06N3/045 , G06N3/0495 , G06N3/084 , G06N3/0895 , G06N3/096 , G06N3/0455
Abstract: 本发明公开了一种基于知识融合的多未知领域文本分类方法、设备、介质,包括:基于预先训练好的n个教师模型构建2n‑1个教师模型组合;对每一个仅包含一个教师模型的教师模型组合进行第一采样,得到训练好的学生模型及其分类准确率,将教师模型组合‑分类准确率数据对作为初始的观测信息;基于当前的观测信息选择教师模型组合;若被选择的教师模型组合为已被采样的教师模型组合,则将观测信息中最大分类准确率对应的学生模型作为文本分类模型;若被选择的教师模型组合为没有被采样且包含两个及以上教师模型时,对该教师模型组合进行第二采样,得到训练好的学生模型及其分类准确率,更新观测信息;通过文本分类模型确定待分类文本的分类结果。
-
公开(公告)号:CN119357234A
公开(公告)日:2025-01-24
申请号:CN202411296629.5
申请日:2024-09-14
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06F16/2455 , G06F16/242 , G06N3/08
Abstract: 本申请涉及一种数据协同查询方法、装置、计算机设备及存储介质。所述方法包括:获取查询信息,并基于所述查询信息确定查询关系算子与至少一个目标模型算子;在数据库中预设执行规则,并基于所述目标模型算子确定目标模型在数据库中的所述执行规则,所述执行规则基于所述目标模型的模型参数以及模型计算图确定;基于所述查询关系算子以及所述执行规则,从所述数据库中确定查询结果。本申请实施例可以基于查询关系算子以及数据库中的执行规则,自动实现数据查询过程,得到数据查询结果,而不再需要用户手动解析目标模型,以及根据目标模型手动编写大量的SQL。本申请不仅降低了人工成本,还有效缩短了数据查询的时间,进而显著提高了数据查询的效率。
-
公开(公告)号:CN119151016A
公开(公告)日:2024-12-17
申请号:CN202411650247.8
申请日:2024-11-19
Applicant: 杭州高新区(滨江)区块链与数据安全研究院 , 浙江大学
IPC: G06N20/00 , G06N3/006 , G06F16/242
Abstract: 本申请涉及一种多智能体代理的数据库内的机器学习特征生成方法,包括:根据历史特征集合在数据库内的机器学习模型中的性能指标,确定第一特征集合和第一特征集合的特征描述;根据机器学习任务和历史特征集合,得到第一特征集合对应的特征提示;获取数据库内的大语言模型根据第一特征集合、特征描述和特征提示生成的新特征,并结合第一特征集合和新特征得到第二特征集合;根据历史特征集合和第二特征集合在机器学习模型中的性能指标,确定第三特征集合;分解第三特征集合,直至分解得到的特征集合与第三特征集合匹配,根据分解结果得到执行机器学习任务所需的第四特征集合。采用本方法能够解决数据库内执行机器学习任务困难且准确性低的问题。
-
-
-
-
-
-
-
-
-