-
公开(公告)号:CN113157694A
公开(公告)日:2021-07-23
申请号:CN202110301421.8
申请日:2021-03-22
Applicant: 浙江大学
Abstract: 本发明公开了一种基于强化学习的数据库索引生成方法。建立树型结构的通用索引架构,节点的抽象索引块分为有序索引块和无序索引块,含有由循环神经网络进行调优的参数,相邻抽象索引块组成索引块组;最底层抽象索引块链接到数据集;对数据集和工作负载,控制器模型自顶向下逐层构建索引架构的参数序列,每一层包含多个索引块组参数,生成参数形成参数序列;索引构建器加载索引架构的参数序列建立逻辑索引;将数据集逐条扫描加载到逻辑索引架构中,并经过实体化过程形成物理索引;使用物理索引执行给定工作负载,得到执行时延以及空间利用率并反馈更新;重复步骤循环迭代。本发明所生成的混合索引架构可支持各种复杂应用场景,并实现更好的性能。
-
公开(公告)号:CN112506876A
公开(公告)日:2021-03-16
申请号:CN202011362702.6
申请日:2020-11-27
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F16/174 , G06F16/2455 , G06F16/31
Abstract: 本发明公开了一种支持SQL查询的无损压缩查询方法。本发明将文本数据根据预设的分隔符进行分割,分割后的文本数据形成序列集合,利用基于n‑gram(n元语法)的上下文概率模型估计序列集合中各个序列的每个字符的潜在概率分布,获得每个字符的潜在概率分布后对序列集合中各个序列进行压缩,压缩后的序列通过线性扫描的不解压顺序进行多种方式的查询。本发明在保证概率分布的准确性以更好地适应数据分布的变化,并且能够确保编码后的数据支持不解压的查询,提高了查询的效率。
-
公开(公告)号:CN112069199A
公开(公告)日:2020-12-11
申请号:CN202010842798.X
申请日:2020-08-20
Applicant: 浙江大学
IPC: G06F16/242 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于中间语法树的多轮自然语言转SQL方法。为解决传统端到端方法存在自然语言和SQL间的语义代沟,忽略了SQL内在的语法逻辑等问题,本发明设计了一种类SQL的中间语法树文法,以非端到端的方式,采用编码‑解码架构的语法神经网络,在轮次维度上迭代,按照语法树逻辑由粗到细的两阶段生成每一轮的中间语法树,并在后处理阶段推理生成SQL。应对多轮会话间语义依赖导致生成SQL局部重叠现象,本发明提出了对历史生成SQL的复用策略,进一步地提高了转化准确率。本发明在智能数据库系统等场景中具有广泛的应用前景。
-
公开(公告)号:CN109359172B
公开(公告)日:2020-12-11
申请号:CN201810871604.1
申请日:2018-08-02
Applicant: 浙江大学
Abstract: 本发明公开了一种基于图划分的实体对齐优化方法。利用组合索引从所有实体中挖掘候选实体对,通过实体的相似度度量方法判别候选实体对是否对齐获得等价实体对,再利用实体之间的相似度关系提出基于图划分的优化算法提升等价实体对对齐的准确性。本发明方法解决了大规模互联网数据的实体对齐问题,能准确完备挖掘出原始数据中相互等价的实体集合。
-
公开(公告)号:CN111881222A
公开(公告)日:2020-11-03
申请号:CN202010686608.X
申请日:2020-07-16
Applicant: 浙江大学
IPC: G06F16/28 , G06F16/2458
Abstract: 本发明公开了一种面向审计的关系数据库聚合代数约束自动挖掘方法,它是一种智慧审计应用中潜藏于海量数据之中的约束关系挖掘方法。现有的审计规则或由专家构造,或由数据库约束发现方法产生,能实现审计简单业务的目的,但是不足以应付海量数据规模挑战,无法满足审计作业中含统计数值的复杂运算的需求。本发明针对上述不足,将该需求形式化成聚合代数约束,并提供聚合代数约束的挖掘方法,该方法根据数据库的模式信息依次枚举表连接、分组方式和代数表达式,计算分析后得到聚合代数约束。本发明无需人工参与约束挖掘,可以应对计算海量数据带来的时空性能挑战,满足审计统计数值相关的复杂运算需求。
-
公开(公告)号:CN111581957A
公开(公告)日:2020-08-25
申请号:CN202010371816.0
申请日:2020-05-06
Applicant: 浙江大学
IPC: G06F40/279 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于金字塔层级网络的嵌套实体检测方法,属于自然语言处理技术领域。该嵌套实体检测方法包括:(一)对单词进行编码获得词向量,将词向量作为仅包含单个单词的文本区域的表示输入第一个解码层;(二)当前解码层对输入的每个文本区域的表示进行命名实体识别,将相邻的两个文本区域的表示被合并为一个新的文本区域的表示,输入到下一解码层,重复该步骤直到次数达到预设的层数或输入文本的长度;(三)对应于上述金字塔层级网络,使用合适的优化方法进行训练;(四)将待检测文本输入训练好的金字塔层级网络,获得命名实体识别结果。本发明的基于金字塔层级网络的嵌套实体检测方法可以解决命名实体识别中存在实体嵌套的问题。
-
公开(公告)号:CN111274814A
公开(公告)日:2020-06-12
申请号:CN201911369784.4
申请日:2019-12-26
Applicant: 浙江大学
IPC: G06F40/295 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种新型的半监督文本实体信息抽取方法。文档短语分割得候选实体集合;建立有、无监督学习部分,有、无标注的文档分别有、无监督学习;文档和实体类型输入实体抽取模块输出实体信息;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相加为损失;文档输入实体抽取模块获得每个实体类型的损失;文档和短语输入类型选择模块输出短语概率分布;两模块损失值相乘后相加构成损失;两部分加权计算获得总损失,优化训练获得模型参数;将测文本依次输入到实体抽取模块和类型选择模块获得实体信息。本发明能够利用海量无标注数据,显著增强模型性能,在小样本标注数据的条件下有着显著的提升,也适用于零样本学习的半监督文本数据处理。
-
公开(公告)号:CN109101468A
公开(公告)日:2018-12-28
申请号:CN201810873554.0
申请日:2018-08-02
Applicant: 浙江大学
IPC: G06F17/21
Abstract: 本发明公开了一种文本数据转换脚本的执行优化方法。针对通过网络分布式处理执行的文本数据转换脚本,对文本数据转换脚本进行解析,生成执行计划树;使用基于元组的多重集作为文本数据的数据模型,文本数据转换脚本包含了对多重集的结构和内容进行修改和转换的数据操作;根据转换脚本执行场景的不同,采用对应的执行优化方法;根据优化后得到的执行计划结果,生成逻辑程序处理并运行,从而对大数据平台上的数据进行高效地转换和处理。本发明方法能够应用于数据准备阶段对海量文本数据的处理,通过应用面向文本数据转换脚本的执行优化方法,能够有效地减少文本数据转换脚本在执行时的时空代价,提高数据准备阶段的效率。
-
公开(公告)号:CN108229503A
公开(公告)日:2018-06-29
申请号:CN201810008857.6
申请日:2018-01-04
Applicant: 浙江大学
Abstract: 本发明公开了一种针对服装照片的特征提取方法。为服装照片构建基于深度学习模型的特征提取模型,特征提取模型中包含多任务分类损失函数和四元损失函数;采集若干带标签的服装照片作为训练数据,将带标签的服装照片及其标签输入到特征提取模型进行训练,在多任务分类损失函数和四元损失函数的共同优化下通过反向传播算法进行特征提取模型的参数优化,获得训练后的特征提取模型,以训练后的特征提取模型对带标签的服装照片进行处理提取获得特征向量。本发明针对服装照片设计的特征提取方法非常通用而且鲁棒,可用于服装照片的分类、标注、检索和聚类等应用。
-
公开(公告)号:CN119988979A
公开(公告)日:2025-05-13
申请号:CN202510160819.2
申请日:2025-02-13
Applicant: 浙江大学计算机创新技术研究院
IPC: G06F18/214 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于迭代数据增强策略提升大模型微调效果的方法和装置。本发明包括根据要求人工生成一批分布各不同的种子数据;基于规则或者大模型对人工生成的种子数据进行增强;检查增强数据的质量;用检查好的数据微调模型,并用训练好的模型推理训练数据;对推理结果进行各方面的综合评估;评估出来的指标是否满足要求;如果不满足要求则对错误的样本再进行增强,反复迭代;评估结果满足要求则结束整个流程。本发明显著降低了小数据集下大模型微调的门槛,通过生成有针对性的合成数据,使模型在数据稀缺的场景中表现优异。
-
-
-
-
-
-
-
-
-