一种大模型处理表格数据的方法、装置及介质

    公开(公告)号:CN118245485B

    公开(公告)日:2024-08-23

    申请号:CN202410645067.4

    申请日:2024-05-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种大模型处理表格数据的方法、装置及介质,包括:将用户的自然语言转化为SQL查询,以进行表格数据查询请求;将SQL查询中的表格任务解析成对应的算子,以生成粗粒度的计算图;使用算子分解、算子组合、算子重排,并结合代价函数对粗粒度的计算图进行优化,生成细粒度的计算图;根据细粒度的计算图编译成代码;执行所述代码,得到用户答复。本发明能够实现与表格的自然语言交互,能够实现提取信息、计算、推理等功能,具备更强的理解和执行表格任务的能力。

    基于数据库管理系统的深度神经网络推理方法和装置

    公开(公告)号:CN118278468A

    公开(公告)日:2024-07-02

    申请号:CN202410695887.4

    申请日:2024-05-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据库管理系统的深度神经网络推理方法和装置,包括:将预训练神经网络模型参数转换为二进制格式;根据不同的目标任务,使用对应的目标数据集微调将参数已转换为二进制格式的预训练神经网络模型,并在微调中,通过概率模型和剪枝技术,去除冗余参数,得到轻量化模型;将若干个所述轻量化模型部署到数据库管理系统中,即SmartLite;其中,所述预训练神经网络模型的结构和参数作为共享块;当所述SmartLite接受到混合查询请求,至少调用一个模型进行推理;所述混合查询包括SQL查询和深度学习模型推理。本发明计算效率显著提升,使用查找表和比特操作优化,在各种计算任务中显著提高了计算速度。

    一种大模型处理表格数据的方法、装置及介质

    公开(公告)号:CN118245485A

    公开(公告)日:2024-06-25

    申请号:CN202410645067.4

    申请日:2024-05-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种大模型处理表格数据的方法、装置及介质,包括:将用户的自然语言转化为SQL查询,以进行表格数据查询请求;将SQL查询中的表格任务解析成对应的算子,以生成粗粒度的计算图;使用算子分解、算子组合、算子重排,并结合代价函数对粗粒度的计算图进行优化,生成细粒度的计算图;根据细粒度的计算图编译成代码;执行所述代码,得到用户答复。本发明能够实现与表格的自然语言交互,能够实现提取信息、计算、推理等功能,具备更强的理解和执行表格任务的能力。

    一种基于数据湖的查询方法和装置

    公开(公告)号:CN118227656A

    公开(公告)日:2024-06-21

    申请号:CN202410650121.4

    申请日:2024-05-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据湖的查询方法和装置,包括:根据用户输入,对查询的目标数据集进行采样,得到模式信息M和数据样本信息,从而构建查询;将查询分解成若干个子任务,从而构建处理图;修正处理图,采用shuffle技术和/或Collapse技术,并结合成本模型对修正后的处理图进行优化;根据优化后的处理图生成代码并执行,以输出用户查询结果。本发明无需中介模式,简化查询过程,不需要数据转换和加载,简化了操作,从整体上提高了查询效率。在查询细节上,设计了针对LLM生成代码的查询优化器,极大提高了LLM生成代码的执行效率和对应方法的可解释性,其中对处理图修正以辅助LLM能提高查询准确性,使整个自然语言查询任务的准确性超过传统方法。

    一种分布式子轨迹连接查询处理方法

    公开(公告)号:CN113032391B

    公开(公告)日:2022-04-12

    申请号:CN202110162264.7

    申请日:2021-02-05

    Applicant: 浙江大学

    Abstract: 本发明公开了一种分布式子轨迹连接查询处理方法。该方法首先将轨迹数据进行混合分区处理,即首先基于时间信息对轨迹数据进行时间分区,之后基于空间位置信息将同一时间分区内的轨迹数据进行空间分区;在每一个时间分区内建立索引;在之后的查询过程中,首先将查询轨迹按照相同的时间间隔进行分区,并在相应的时间分区内进行并行查询,得到一系列候选轨迹;之后将每个候选轨迹对应的空间分区数据加载到内存中,并一一进行验证;最后将各个时间分区得到的数据进行合并。本方法能够支持城市级别GPS点的查询,并能够有效降低I/O和CPU处理开销,加快查询处理,性能良好。

    基于数据库管理系统的深度神经网络推理方法和装置

    公开(公告)号:CN118278468B

    公开(公告)日:2024-09-06

    申请号:CN202410695887.4

    申请日:2024-05-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据库管理系统的深度神经网络推理方法和装置,包括:将预训练神经网络模型参数转换为二进制格式;根据不同的目标任务,使用对应的目标数据集微调将参数已转换为二进制格式的预训练神经网络模型,并在微调中,通过概率模型和剪枝技术,去除冗余参数,得到轻量化模型;将若干个所述轻量化模型部署到数据库管理系统中,即SmartLite;其中,所述预训练神经网络模型的结构和参数作为共享块;当所述SmartLite接受到混合查询请求,至少调用一个模型进行推理;所述混合查询包括SQL查询和深度学习模型推理。本发明计算效率显著提升,使用查找表和比特操作优化,在各种计算任务中显著提高了计算速度。

    一种基于特征校正的结构化数据新类别识别方法及装置

    公开(公告)号:CN118228142B

    公开(公告)日:2024-08-13

    申请号:CN202410650118.2

    申请日:2024-05-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于特征校正的结构化数据新类别识别方法及装置,包括:获取有标注样本集和无标注样本集,将每一个样本输入表征编码器,得到样本表征;根据神经网络坍缩现象,生成预分配的单纯形等角紧凑结构作为目标化最优分类头;为无标注样本集中的样本生成初步伪标签,对初步伪标签进行细粒度修正,得到硬标签;基于目标化最优分类头和样本标签,对样本表征进行校正;根据校正后的样本表征和对应的标签,进行基于损失大小关系的标签过滤;使用过滤后的标签及其对应的样本进行半监督训练,更新表征编码器参数;所述半监督模型包括训练好的表征编码器和目标化最优分类头,用于新类样本识别。本发明大幅度提升结构化数据新类别识别准确率。

    一种基于数据湖的查询方法和装置

    公开(公告)号:CN118227656B

    公开(公告)日:2024-08-13

    申请号:CN202410650121.4

    申请日:2024-05-24

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据湖的查询方法和装置,包括:根据用户输入,对查询的目标数据集进行采样,得到模式信息M和数据样本信息,从而构建查询;将查询分解成若干个子任务,从而构建处理图;修正处理图,采用shuffle技术和/或Collapse技术,并结合成本模型对修正后的处理图进行优化;根据优化后的处理图生成代码并执行,以输出用户查询结果。本发明无需中介模式,简化查询过程,不需要数据转换和加载,简化了操作,从整体上提高了查询效率。在查询细节上,设计了针对LLM生成代码的查询优化器,极大提高了LLM生成代码的执行效率和对应方法的可解释性,其中对处理图修正以辅助LLM能提高查询准确性,使整个自然语言查询任务的准确性超过传统方法。

    一种表格数据重构方法及装置、问答方法

    公开(公告)号:CN118093597B

    公开(公告)日:2024-07-30

    申请号:CN202410490193.7

    申请日:2024-04-23

    Applicant: 浙江大学

    Abstract: 本发明公开了一种表格数据重构方法及装置、问答方法,包括筛选出与用户问题有关的表头并保留该表头所在的列,得到列重构表格;对列重构后的表格进行行重构:根据单元值将表格的列划分为三类,即连续值列、离散值列、时间值列;提取连续值列的统计量、离散值列的与用户问题有关的类别以及时间值列的最早和最晚时间作为表格的重构特征,并将这些重构特征进行连接得到行重构表格,从而得到完整的重构表格;进一步地,输入大语言模型来生成符合用户问题需求的SQL语句,大大提高了通过自然语言处理表格任务的准确率,在实际的使用场景更加智能与有效。

Patent Agency Ranking