-
公开(公告)号:CN118228142B
公开(公告)日:2024-08-13
申请号:CN202410650118.2
申请日:2024-05-24
Applicant: 浙江大学
IPC: G06F18/2415 , G06F18/213 , G06F18/22 , G06N3/0495
Abstract: 本发明公开了一种基于特征校正的结构化数据新类别识别方法及装置,包括:获取有标注样本集和无标注样本集,将每一个样本输入表征编码器,得到样本表征;根据神经网络坍缩现象,生成预分配的单纯形等角紧凑结构作为目标化最优分类头;为无标注样本集中的样本生成初步伪标签,对初步伪标签进行细粒度修正,得到硬标签;基于目标化最优分类头和样本标签,对样本表征进行校正;根据校正后的样本表征和对应的标签,进行基于损失大小关系的标签过滤;使用过滤后的标签及其对应的样本进行半监督训练,更新表征编码器参数;所述半监督模型包括训练好的表征编码器和目标化最优分类头,用于新类样本识别。本发明大幅度提升结构化数据新类别识别准确率。
-
公开(公告)号:CN118227656B
公开(公告)日:2024-08-13
申请号:CN202410650121.4
申请日:2024-05-24
Applicant: 浙江大学
IPC: G06F16/242 , G06F16/2455 , G06F16/27
Abstract: 本发明公开了一种基于数据湖的查询方法和装置,包括:根据用户输入,对查询的目标数据集进行采样,得到模式信息M和数据样本信息,从而构建查询;将查询分解成若干个子任务,从而构建处理图;修正处理图,采用shuffle技术和/或Collapse技术,并结合成本模型对修正后的处理图进行优化;根据优化后的处理图生成代码并执行,以输出用户查询结果。本发明无需中介模式,简化查询过程,不需要数据转换和加载,简化了操作,从整体上提高了查询效率。在查询细节上,设计了针对LLM生成代码的查询优化器,极大提高了LLM生成代码的执行效率和对应方法的可解释性,其中对处理图修正以辅助LLM能提高查询准确性,使整个自然语言查询任务的准确性超过传统方法。
-
公开(公告)号:CN118427196A
公开(公告)日:2024-08-02
申请号:CN202410580754.2
申请日:2024-05-11
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/22 , G06F16/28 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种适用于关系型数据库内深度学习模型的存储方法和装置。本发明基于关系型数据库向量存储技术和深度学习框架,是一种能够在导入模型时在数据库中存储模型参数、使用模型时合并数据库中模型参数的方法。该方法内置多种基础模型。当导入新模型时可以指定基础模型,读取模型并将模型层名与模型参数保存到模型参数表中;在使用模型时会根据模型参数表获取模型的基础模型信息,加载基础模型并读取模型参数表中记录的层名与各层参数,将各层参数设置回基础模型中即可还原模型。本发明对于一个基于基础模型的新模型只需要记录各层参数即可,无需存储模型结构信息,这种数据库内模型存储方法能显著减少模型在数据库内所占据的存储容量。
-
公开(公告)号:CN118093597B
公开(公告)日:2024-07-30
申请号:CN202410490193.7
申请日:2024-04-23
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/242 , G06F18/22
Abstract: 本发明公开了一种表格数据重构方法及装置、问答方法,包括筛选出与用户问题有关的表头并保留该表头所在的列,得到列重构表格;对列重构后的表格进行行重构:根据单元值将表格的列划分为三类,即连续值列、离散值列、时间值列;提取连续值列的统计量、离散值列的与用户问题有关的类别以及时间值列的最早和最晚时间作为表格的重构特征,并将这些重构特征进行连接得到行重构表格,从而得到完整的重构表格;进一步地,输入大语言模型来生成符合用户问题需求的SQL语句,大大提高了通过自然语言处理表格任务的准确率,在实际的使用场景更加智能与有效。
-
公开(公告)号:CN118228142A
公开(公告)日:2024-06-21
申请号:CN202410650118.2
申请日:2024-05-24
Applicant: 浙江大学
IPC: G06F18/2415 , G06F18/213 , G06F18/22 , G06N3/0495
Abstract: 本发明公开了一种基于特征校正的结构化数据新类别识别方法及装置,包括:获取有标注样本集和无标注样本集,将每一个样本输入表征编码器,得到样本表征;根据神经网络坍缩现象,生成预分配的单纯形等角紧凑结构作为目标化最优分类头;为无标注样本集中的样本生成初步伪标签,对初步伪标签进行细粒度修正,得到硬标签;基于目标化最优分类头和样本标签,对样本表征进行校正;根据校正后的样本表征和对应的标签,进行基于损失大小关系的标签过滤;使用过滤后的标签及其对应的样本进行半监督训练,更新表征编码器参数;所述半监督模型包括训练好的表征编码器和目标化最优分类头,用于新类样本识别。本发明大幅度提升结构化数据新类别识别准确率。
-
公开(公告)号:CN113657607B
公开(公告)日:2024-03-22
申请号:CN202110894758.4
申请日:2021-08-05
Applicant: 浙江大学
Abstract: 本发明公开了一种面向联邦学习的连续学习方法。联邦学习服务端和各个客户端在确定学习任务后,通过搜集若干个与任务类型匹配的无隐私问题的公开数据集,各自独立地构建一份辅助数据集,用于后续训练过程;客户端借助知识蒸馏损失让本地模型在学习新任务的同时学习辅助数据集以及辅助标签,从而减少对旧知识的遗忘;服务端借助知识蒸馏损失让聚合模型同时学习辅助数据集以及辅助标签,从而减少模型在聚合过程中产生的遗忘。本发明在隐私安全且通信代价小的基础上,提升了联邦模型的连续学习能力。
-
公开(公告)号:CN117453727A
公开(公告)日:2024-01-26
申请号:CN202311479100.2
申请日:2023-11-08
Applicant: 浙江大学
IPC: G06F16/2453 , G06F16/21 , G06N5/04 , G06F16/2455
Abstract: 本发明公开了一种基于数据库内推理的数据向量化检索方法和装置。传统的图片、文本向量化检索实现往往需要在多个系统内实现,本发明在一个数据库系统内就能直接实现,极大地减轻了系统设计者的难度,极大地减轻了上层应用的开发难度。本发明在数据库内深度学习推理系统的基础上,实现了图片和文本的向量化检索方法,将数据库底层的存储引擎改为向量化存储,实现了图片和文本数据更加轻量的存储,更加高效的检索。通过层次性导航图和向量乘积量化加速向量化处理过程,先在较大数据范围内进行粗略但快速的筛选,再进行较少数据范围内进行精细计算的筛选,极大地提升了图片、文本数据检索方法的性能。
-
公开(公告)号:CN117312884A
公开(公告)日:2023-12-29
申请号:CN202311269018.7
申请日:2023-09-28
Applicant: 浙江大学
Abstract: 本发明公开了车辆轨迹恢复技术领域的一种基于联合表达特征聚类的车辆轨迹恢复方法,获取车辆快照,基于快照的时间和空间信息经过时空特征映射模块得到时空特征,再构建联合特征内积空间计算相似度,最后通过快速增量聚类方法得到车辆快照类簇,输出估计得到的车辆快照ID。本发明算法扩展了特征空间并重新定义了度量空间,可以有效地获得更优的结果,且能够处理可扩展性的数据流。我们设计的快速增量聚类的方法可以适用于不同分布特征的快照集合,提升轨迹恢复的效果。
-
公开(公告)号:CN117272006A
公开(公告)日:2023-12-22
申请号:CN202311052101.9
申请日:2023-08-21
Applicant: 浙江大学
IPC: G06F18/21 , G06F18/214 , G06F16/22
Abstract: 本发明公开了一种基于数据库索引技术的主动学习训练加速方法及系统。方法包括:将训练样本输入样本特征提取模块中,输出特征向量;输入主动学习评价模块中,输出样本评分,调用高性能索引模块排序;高性能索引模块对样本评分保存以及排序次序关系维护;集成主动学习算法模块调用高性能索引模块预筛选,使用主动学习算法挑选待训练样本,输入待训练的深度学习模型中训练;重复直至训练完成。本发明结合主动学习和高效的数据索引结构,加快主动学习训练流程,提高模型训练的效率和性能。优化数据的存储和索引方式,减少数据操作的复杂性,有助于提高训练过程的整体效率,能够基于高效的数据库索引结构,以及轻量的主动学习算法,加速训练流程。
-
公开(公告)号:CN112069199B
公开(公告)日:2022-08-05
申请号:CN202010842798.X
申请日:2020-08-20
Applicant: 浙江大学
IPC: G06F16/242 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。
-
-
-
-
-
-
-
-
-