-
公开(公告)号:CN118245485A
公开(公告)日:2024-06-25
申请号:CN202410645067.4
申请日:2024-05-23
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/242 , G06F40/177 , G06F40/151
Abstract: 本发明公开了一种大模型处理表格数据的方法、装置及介质,包括:将用户的自然语言转化为SQL查询,以进行表格数据查询请求;将SQL查询中的表格任务解析成对应的算子,以生成粗粒度的计算图;使用算子分解、算子组合、算子重排,并结合代价函数对粗粒度的计算图进行优化,生成细粒度的计算图;根据细粒度的计算图编译成代码;执行所述代码,得到用户答复。本发明能够实现与表格的自然语言交互,能够实现提取信息、计算、推理等功能,具备更强的理解和执行表格任务的能力。
-
公开(公告)号:CN118227656A
公开(公告)日:2024-06-21
申请号:CN202410650121.4
申请日:2024-05-24
Applicant: 浙江大学
IPC: G06F16/242 , G06F16/2455 , G06F16/27
Abstract: 本发明公开了一种基于数据湖的查询方法和装置,包括:根据用户输入,对查询的目标数据集进行采样,得到模式信息M和数据样本信息,从而构建查询;将查询分解成若干个子任务,从而构建处理图;修正处理图,采用shuffle技术和/或Collapse技术,并结合成本模型对修正后的处理图进行优化;根据优化后的处理图生成代码并执行,以输出用户查询结果。本发明无需中介模式,简化查询过程,不需要数据转换和加载,简化了操作,从整体上提高了查询效率。在查询细节上,设计了针对LLM生成代码的查询优化器,极大提高了LLM生成代码的执行效率和对应方法的可解释性,其中对处理图修正以辅助LLM能提高查询准确性,使整个自然语言查询任务的准确性超过传统方法。
-
公开(公告)号:CN114285955B
公开(公告)日:2022-12-09
申请号:CN202111620261.X
申请日:2021-12-28
Applicant: 浙江大学
Abstract: 基于动态偏差图神经网络的颜色色域映射方法,包括下列步骤:1)印染打印机颜色样本采集;2)从XYZ到CMKY颜色空间偏差映射图神经网络构建与训练;3)基于掩码的粗粒度局部映射强化;4)针对特定机器的图神经映射网络调整优化;5)基于掩码的特定机器局部映射强化;6)从CMYK到XYZ颜色空间的映射;7)基于局部范围匹配的颜色色域映射。通过上述步骤建立的基于动态偏差图神经网络的颜色色域映射方法,通过将动态偏差引入神经网络,从大量采集的印染样本中学习出印染打印机颜色空间到标准颜色空间间颜色映射的同时,实现印染打印机颜色空间到标准颜色空间间颜色的精准映射。
-
公开(公告)号:CN113032391B
公开(公告)日:2022-04-12
申请号:CN202110162264.7
申请日:2021-02-05
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明公开了一种分布式子轨迹连接查询处理方法。该方法首先将轨迹数据进行混合分区处理,即首先基于时间信息对轨迹数据进行时间分区,之后基于空间位置信息将同一时间分区内的轨迹数据进行空间分区;在每一个时间分区内建立索引;在之后的查询过程中,首先将查询轨迹按照相同的时间间隔进行分区,并在相应的时间分区内进行并行查询,得到一系列候选轨迹;之后将每个候选轨迹对应的空间分区数据加载到内存中,并一一进行验证;最后将各个时间分区得到的数据进行合并。本方法能够支持城市级别GPS点的查询,并能够有效降低I/O和CPU处理开销,加快查询处理,性能良好。
-
公开(公告)号:CN111881222B
公开(公告)日:2022-04-12
申请号:CN202010686608.X
申请日:2020-07-16
Applicant: 浙江大学
IPC: G06F16/28 , G06F16/2458
Abstract: 本发明公开了一种面向审计的关系数据库聚合代数约束自动挖掘方法,它是一种智慧审计应用中潜藏于海量数据之中的约束关系挖掘方法。现有的审计规则或由专家构造,或由数据库约束发现方法产生,能实现审计简单业务的目的,但是不足以应付海量数据规模挑战,无法满足审计作业中含统计数值的复杂运算的需求。本发明针对上述不足,将该需求形式化成聚合代数约束,并提供聚合代数约束的挖掘方法,该方法根据数据库的模式信息依次枚举表连接、分组方式和代数表达式,计算分析后得到聚合代数约束。本发明无需人工参与约束挖掘,可以应对计算海量数据带来的时空性能挑战,满足审计统计数值相关的复杂运算需求。
-
公开(公告)号:CN111259938B
公开(公告)日:2022-04-12
申请号:CN202010023677.2
申请日:2020-01-09
Applicant: 浙江大学
IPC: G06V10/764 , G06K9/62
Abstract: 本发明公开了一种基于流形学习和梯度提升模型的图片偏多标签分类方法。从训练数据集构建一个加权图,通过求解以上第一最小化模型获得非负权重矩阵,根据加权图建立第二最小化模型并求解获得重构标签矩阵,根据重构标签矩阵将训练数据集换构造并训练二值相关模型,预测得标签矩阵;对图片的特征向量矩阵建立回归器最小化求解,用迭代预测结果矩阵增强特征向量矩阵,结合负梯度矩阵构造数据集并训练学习获得弱回归器,求和所有弱回归器,得最终回归器,对预待测图片处理判断。本发明能够充分地利用图片偏多标签数据之间的相关性来提升图片的多标签分类预测性能,可实现偏标签数据的消歧,提高了准确度和鲁棒性,其性能优于现有的图片偏多标签方法。
-
公开(公告)号:CN114285955A
公开(公告)日:2022-04-05
申请号:CN202111620261.X
申请日:2021-12-28
Applicant: 浙江大学
Abstract: 基于动态偏差图神经网络的颜色色域映射方法,包括下列步骤:1)印染打印机颜色样本采集;2)从XYZ到CMKY颜色空间偏差映射图神经网络构建与训练;3)基于掩码的粗粒度局部映射强化;4)针对特定机器的图神经映射网络调整优化;5)基于掩码的特定机器局部映射强化;6)从CMYK到XYZ颜色空间的映射;7)基于局部范围匹配的颜色色域映射。通过上述步骤建立的基于动态偏差图神经网络的颜色色域映射方法,通过将动态偏差引入神经网络,从大量采集的印染样本中学习出印染打印机颜色空间到标准颜色空间间颜色映射的同时,实现印染打印机颜色空间到标准颜色空间间颜色的精准映射。
-
公开(公告)号:CN113033203A
公开(公告)日:2021-06-25
申请号:CN202110162263.2
申请日:2021-02-05
Applicant: 浙江大学
IPC: G06F40/295 , G06F16/36 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向医药说明书文本的结构化信息抽取方法,属于医疗自然语言处理技术领域。首先,采用一种面向无标注数据的基于对抗迁移学习的实体识别模型,进行医药说明书文本的初步实体识别。接着,在实体识别基础上,提出一种用法用量表抽取新任务,即将用法用量文本中复杂的知识结构以表格的形式抽取出来。并针对此任务,设计一种基于特征融合的表抽取算法,来进行说明书用法用量的表抽取。最后,在实体识别的基础上,采用一种基于医疗实体字符注意力机制的关系抽取方法,来对实体之间的关系进行抽取。本发明提出的结构化信息抽取方法可以解决医药说明书文本的复杂信息抽取问题。
-
公开(公告)号:CN112395467A
公开(公告)日:2021-02-23
申请号:CN202011362738.4
申请日:2020-11-27
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/901 , G06F16/909 , G06F16/29
Abstract: 本发明公开了一种基于时隙的时空索引方法。根据运动对象的轨迹,构建TS‑TPR索引结构,将实时获得的预测轨迹插入到TS‑TPR中对应的TPR树中;批量更新TS‑TPR索引结构中的轨迹数据;以分而治之方式使用TS‑TPR回答预测性时空查询。通过本发明的索引能索引预测轨迹,可以索引连续轨迹,完成有关的预测性查询,提升了预测性查询的准确率。
-
公开(公告)号:CN107480220B
公开(公告)日:2021-01-12
申请号:CN201710647283.2
申请日:2017-08-01
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/338
Abstract: 本发明公开了一种基于在线聚集的快速文本查询方法。首先以规定的数据模式读取文本文件;其次,以在线聚集的方式进行输入查询,所有查询以树的方式进行组织;最后,根据不同的聚合函数,计算相应的查询置信度或置信区间,当置信度或置信区间满足预设的临界值时,查询过程停止。本发明能在超大文本数据上直接进行查询,并且快速地获得近似结果,实现了在超大文本数据上快速的查询响应。
-
-
-
-
-
-
-
-
-