-
公开(公告)号:CN113032418A
公开(公告)日:2021-06-25
申请号:CN202110183393.4
申请日:2021-02-08
Applicant: 浙江大学
IPC: G06F16/242 , G06F16/245
Abstract: 本发明公开了一种基于树状模型的复杂自然语言查询转SQL方法,该方法首先针对于输入的数据库进行预筛选,获取与自然语言查询相关的TOP K个表格,将多表查询转化为单表查询,并适配于数据库规模较大从而无法将信息输入到自然语言查询转SQL模型的情况;然后针对于复杂的SQL语句自顶向下地拆解为多叉树形式,每个结点代表一个模块,由此构建了一个树状模型来预测复杂SQL语句各模块的输出;最后针对于SQL语句值抽取的任务,将值抽取从树状模型中分离出来,共享权重来同时抽取SQL中不同子句的值。本发明的基于树状模型的复杂自然语言查询转SQL方法框架可以解决自然语言查询转SQL任务中的多表复杂查询问题。
-
公开(公告)号:CN107480220B
公开(公告)日:2021-01-12
申请号:CN201710647283.2
申请日:2017-08-01
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/338
Abstract: 本发明公开了一种基于在线聚集的快速文本查询方法。首先以规定的数据模式读取文本文件;其次,以在线聚集的方式进行输入查询,所有查询以树的方式进行组织;最后,根据不同的聚合函数,计算相应的查询置信度或置信区间,当置信度或置信区间满足预设的临界值时,查询过程停止。本发明能在超大文本数据上直接进行查询,并且快速地获得近似结果,实现了在超大文本数据上快速的查询响应。
-
公开(公告)号:CN111475500A
公开(公告)日:2020-07-31
申请号:CN202010279614.3
申请日:2020-04-10
Applicant: 浙江大学
IPC: G06F16/215
Abstract: 本发明公开了一种自动发现审计规则和异常数据的方法。该方法先将审计的数据集按照属性类型分成分类属性和数值属性,用户再分别给定分类属性的最小支持率和数值属性的偏移率,然后在分类属性中选出支持率高于最小支持率的候选分类属性和属性值;再根据属性类型生成候选属性集,从而获取审计规则;最后根据获取的审计规则,依次对收集的审计数据集进行筛选,选出符合审计规则中满足条件约束的,而派生属性的属性值不在正常值范围内的数据,即为异常数据。该自动发现审计规则和异常数据方法能够有效地提高审计效率,降低审计成本。
-
公开(公告)号:CN107491508B
公开(公告)日:2020-05-26
申请号:CN201710647281.3
申请日:2017-08-01
Applicant: 浙江大学
IPC: G06F16/2453 , G06F16/2455
Abstract: 本发明公开了一种基于循环神经网络的数据库查询时间预测方法。首先从数据库历史查询记录中抽取出查询计划,构成的原始数据,一条查询计划包含操作信息和运行时间;按照运行时间长短将原始数据分类,使得每类中的查询计划的数量相等;对查询计划进行特殊处理获得操作序列和运行时间序列;操作序列作为特征向量和运行时间序列作为标签,输入神经网络,训练并得到模型;针对待测的查询计划,重复步骤获得操作序列,输入模型,输出运行时间序列,完成对数据库查询时间的预测。本发明方法在关系型数据库查询时间预测上取得了良好的效果,模拟数据训练下模型的正确率高于78%。该方法可以用于解决查询优化、负载管理中的关键问题。
-
公开(公告)号:CN108924778B
公开(公告)日:2020-05-22
申请号:CN201810778007.4
申请日:2018-07-16
Applicant: 浙江大学
Abstract: 本发明公开了一种面向非实时快照位置数据的签到用户近似搜索方法。读入非实时快照位置数据,建立室内分区空间索引;输入查询区域计算查询区域对应的保底区域和浮动区域;以浮动区域作为空间范围查询的查询条件,在室内分区空间索引上搜索移动用户;根据搜索到的移动用户的快照位置数据,构建不确定移动区域,判定移动用户为确定签到用户或可能签到用户,并放入对应集合中;将确定签到用户集合和可能签到用户集合作为近似搜索结果返回给图形界面进行展示。本发明方法在无线定位数据采样频率低、内存维护数据条件有限的场景下,搜索当前时刻可能在特定查询区域进行签到的用户时,能同时保证搜索过程的高效性和完整有效性。
-
公开(公告)号:CN110716933A
公开(公告)日:2020-01-21
申请号:CN201910934795.6
申请日:2019-09-29
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/2458
Abstract: 本发明公开了一种面向新型城轨列车大数据的高伸缩分布式索引方法。针对新型城轨列车大数据采用服务器集群进行存储构建数据库,形成一个图状拓扑结构的服务器集群,为每台服务器分配一个辅键索引范围作为索引区间;将键值类型数据进行分片,分布式地存储到服务器上,每台服务器对本地的数据分片建立分片索引;每台服务器从本地的分片索引中选取中间节点,建立外链索引发布到其他确定服务器上;利用辅键索引处理查询请求。本发明快速定位查找并定位保存了所需数据区块的服务器,建立辅助索引可支持迅速、准确的数据查询功能,解决了键值存储模型缺乏辅助索引的问题,能够提高大数据存储系统的数据检索效率,具有高伸缩性和低延迟的特点。
-
公开(公告)号:CN109063034A
公开(公告)日:2018-12-21
申请号:CN201810779775.1
申请日:2018-07-16
Applicant: 浙江大学
CPC classification number: G06Q30/0201
Abstract: 本发明公开了一种基于空间和社交多媒体数据的室内空间语义价值计算方法。将室内独立子空间的语义价值划分为区位和社交贡献度,融合得室内独立子空间的语义价值;分析各室内独立子空间拓扑连接关系,构建室内空间模型,对各物体间距离进行计算,根据用户行走约束计算用户在室内空间中的各条行走路径的选择概率构建路径矩阵,计算区位贡献度;根据室内独立子空间的社交多媒体数据,分析句子结构并提取关键词,构建情感分类基分类器;将句子集合划分为关键句和非关键句,对社交评价文本进行分类;根据社交评价文本的分类计算社交贡献度。本发明的计算室内空间价值方法能用于解决新引进店铺的价值预测,多维度店铺评估等关键问题。
-
-
公开(公告)号:CN102567497B
公开(公告)日:2013-07-24
申请号:CN201110437137.X
申请日:2011-12-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种最匹配模糊轨迹问题的查询方法。该方法发明了一种新的匹配度衡量标准来衡量模糊轨迹之间的匹配程度。该方法先将值域空间划分成一系列的单元格,然后在每一个单元格内建立一个时间索引。在处理匹配查询时,该方法首先访问索引结构,计算每个模糊轨迹和查询轨迹之间匹配度的上界和下界;然后利用该上界和下界对不合格的模糊轨迹进行剪枝,从而得到一个候选答案集合;最后该方法计算每一个候选模糊轨迹的精确的匹配度,并判断该模糊轨迹是否是真正的查询结果。本发明充分利用了数据库和信息检索的现有研究和实现成果,基于已有的空间数据查询方法的扩展和融合可以非常方便快捷的提供最匹配模糊轨迹问题的查询能力,提供最好的性能。
-
公开(公告)号:CN102004771B
公开(公告)日:2013-06-05
申请号:CN201010545434.1
申请日:2010-11-12
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于动态裁剪的移动对象反向近邻查询方法。使用TPR-tree对移动对象建立索引;开发移动对象反向近邻查询处理框架,在过滤阶段得到整个时间段内查询点的所有反向近邻候选点集;在精炼阶段去除候选点中的错误点并确定每个反向近邻查询结果点的有效时间;开发两种适用于移动对象反向近邻动态裁剪策略,整合成统一的移动对象反向近邻动态裁剪方法;实现反向近邻动态裁剪方法上实现移动对象反向近邻查询处理过滤方法;对过滤的结果,实现反向近邻查询的精炼方法,对所有查询候选点进行最近邻查询正确性验证和反向近邻有效子时间段计算;对获得的结果点及其有效时间段进行合并,获得在每个子时间段上的反向近邻查询结果集。
-
-
-
-
-
-
-
-
-