一种自动发现审计规则和异常数据的方法

    公开(公告)号:CN111475500A

    公开(公告)日:2020-07-31

    申请号:CN202010279614.3

    申请日:2020-04-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种自动发现审计规则和异常数据的方法。该方法先将审计的数据集按照属性类型分成分类属性和数值属性,用户再分别给定分类属性的最小支持率和数值属性的偏移率,然后在分类属性中选出支持率高于最小支持率的候选分类属性和属性值;再根据属性类型生成候选属性集,从而获取审计规则;最后根据获取的审计规则,依次对收集的审计数据集进行筛选,选出符合审计规则中满足条件约束的,而派生属性的属性值不在正常值范围内的数据,即为异常数据。该自动发现审计规则和异常数据方法能够有效地提高审计效率,降低审计成本。

    一种基于循环神经网络的数据库查询时间预测方法

    公开(公告)号:CN107491508B

    公开(公告)日:2020-05-26

    申请号:CN201710647281.3

    申请日:2017-08-01

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于循环神经网络的数据库查询时间预测方法。首先从数据库历史查询记录中抽取出查询计划,构成的原始数据,一条查询计划包含操作信息和运行时间;按照运行时间长短将原始数据分类,使得每类中的查询计划的数量相等;对查询计划进行特殊处理获得操作序列和运行时间序列;操作序列作为特征向量和运行时间序列作为标签,输入神经网络,训练并得到模型;针对待测的查询计划,重复步骤获得操作序列,输入模型,输出运行时间序列,完成对数据库查询时间的预测。本发明方法在关系型数据库查询时间预测上取得了良好的效果,模拟数据训练下模型的正确率高于78%。该方法可以用于解决查询优化、负载管理中的关键问题。

    一种面向非实时快照位置数据的签到用户近似搜索方法

    公开(公告)号:CN108924778B

    公开(公告)日:2020-05-22

    申请号:CN201810778007.4

    申请日:2018-07-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种面向非实时快照位置数据的签到用户近似搜索方法。读入非实时快照位置数据,建立室内分区空间索引;输入查询区域计算查询区域对应的保底区域和浮动区域;以浮动区域作为空间范围查询的查询条件,在室内分区空间索引上搜索移动用户;根据搜索到的移动用户的快照位置数据,构建不确定移动区域,判定移动用户为确定签到用户或可能签到用户,并放入对应集合中;将确定签到用户集合和可能签到用户集合作为近似搜索结果返回给图形界面进行展示。本发明方法在无线定位数据采样频率低、内存维护数据条件有限的场景下,搜索当前时刻可能在特定查询区域进行签到的用户时,能同时保证搜索过程的高效性和完整有效性。

    基于空间和社交多媒体数据的室内空间语义价值计算方法

    公开(公告)号:CN109063034A

    公开(公告)日:2018-12-21

    申请号:CN201810779775.1

    申请日:2018-07-16

    Applicant: 浙江大学

    CPC classification number: G06Q30/0201

    Abstract: 本发明公开了一种基于空间和社交多媒体数据的室内空间语义价值计算方法。将室内独立子空间的语义价值划分为区位和社交贡献度,融合得室内独立子空间的语义价值;分析各室内独立子空间拓扑连接关系,构建室内空间模型,对各物体间距离进行计算,根据用户行走约束计算用户在室内空间中的各条行走路径的选择概率构建路径矩阵,计算区位贡献度;根据室内独立子空间的社交多媒体数据,分析句子结构并提取关键词,构建情感分类基分类器;将句子集合划分为关键句和非关键句,对社交评价文本进行分类;根据社交评价文本的分类计算社交贡献度。本发明的计算室内空间价值方法能用于解决新引进店铺的价值预测,多维度店铺评估等关键问题。

    一种基于在线聚集的快速文本查询方法

    公开(公告)号:CN107480220A

    公开(公告)日:2017-12-15

    申请号:CN201710647283.2

    申请日:2017-08-01

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于在线聚集的快速文本查询方法。首先以规定的数据模式读取文本文件;其次,以在线聚集的方式进行输入查询,所有查询以树的方式进行组织;最后,根据不同的聚合函数,计算相应的查询置信度或置信区间,当置信度或置信区间满足预设的临界值时,查询过程停止。本发明能在超大文本数据上直接进行查询,并且快速地获得近似结果,实现了在超大文本数据上快速的查询响应。

    基于微博的众包问答系统信息采集方法

    公开(公告)号:CN103106267A

    公开(公告)日:2013-05-15

    申请号:CN201310040557.3

    申请日:2013-02-02

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于微博的众包问答系统信息采集方法,该发明首先实现了与微博平台进行数据交互的数据采集和发布模块,通过该模块自动采集系统相关的所有问答数据和用户资料信息;对于采集到的问答数据进行后台分析处理,为用户提供更直观和专业的回答结果展示;另外,系统通过对用户资料信息和问答行为的具体分析,将各类新问题有效推送给可能回答的潜在用户,以对新问题进行高效、快速扩散;应用本发明的方法,可以通过微博平台实现问答系统更高效快速地获取答案。

    一种基于类别边界不确定性的关系型知识蒸馏方法

    公开(公告)号:CN119692426A

    公开(公告)日:2025-03-25

    申请号:CN202411680163.9

    申请日:2024-11-22

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于类别边界不确定性的关系型知识蒸馏方法。1)一张图像同时分别经过两个网络分支的特征编码器得到中间特征图谱,再经解码器得到最后的分割预测图谱;2)基于步骤1)得到的中间特征图谱,计算特征级的一致性蒸馏损失;3)基于步骤1)得到的分割预测图谱,计算像素级的一致性蒸馏损失;4)基于步骤1)得到的双分支的分割预测图谱及其对应的真实类别标签A,分别计算分支1和2的目标损失;5)计算总的优化损失函数;6)基于步骤5)的损失函数训练模型。本发明引入BURKD算法,可以更好地建模样本间和类别间的关系,采用基于类别边界不确定的方法对每一种类别进行适应性的动态加权,提高语义分割的性能。

    一种表格数据分析领域大模型的训练和评估方法

    公开(公告)号:CN119415641A

    公开(公告)日:2025-02-11

    申请号:CN202510014062.6

    申请日:2025-01-06

    Abstract: 本发明公开了一种表格数据分析领域大模型的训练和评估方法。对获取的表格、文本数据进行筛选打分;编制多套不同提示词,制作表格数据场景下的“问题”数据以及“问题‑回答”数据对作为基础的训练样本;对生成的“问题”和“问题‑回答”样本对进行数据增强;收集并筛选普通的文本问答、逻辑数学以及代码生成任务数据,选择合适的数据配比,对基底模型进行全参数指令对齐训练;收集、制作评估数据集,编写评估脚本,运行获得对应评价指标;根据评价指标以及评估集合的反馈,迭代优化训练数据集,直到模型达到预期指标为止。本发明能够使得训练得到的表格数据分析领域大模型不仅具有很强的表格问答能力,还具备较强的通用问题解决能力。

    一种基于量子电路的关系表存储方法

    公开(公告)号:CN118861036A

    公开(公告)日:2024-10-29

    申请号:CN202410972203.0

    申请日:2024-07-19

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于量子电路的关系表存储方法。本发明利用量子比特和量子门,可以使用少量量子比特,存储大量数据。本发明首先使用一种控制哈达玛门,生成从0开始逐一递增的整数作为主键,再利用主键作为控制位,使用多控制位托佛利门,保存每行的数据。本发明使用量子硬件,实现了关系表的存储,可利用少量量子比特保存大量数据,有利于大数据处理的加速。

    基于数据库管理系统的深度神经网络推理方法和装置

    公开(公告)号:CN118278468B

    公开(公告)日:2024-09-06

    申请号:CN202410695887.4

    申请日:2024-05-31

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于数据库管理系统的深度神经网络推理方法和装置,包括:将预训练神经网络模型参数转换为二进制格式;根据不同的目标任务,使用对应的目标数据集微调将参数已转换为二进制格式的预训练神经网络模型,并在微调中,通过概率模型和剪枝技术,去除冗余参数,得到轻量化模型;将若干个所述轻量化模型部署到数据库管理系统中,即SmartLite;其中,所述预训练神经网络模型的结构和参数作为共享块;当所述SmartLite接受到混合查询请求,至少调用一个模型进行推理;所述混合查询包括SQL查询和深度学习模型推理。本发明计算效率显著提升,使用查找表和比特操作优化,在各种计算任务中显著提高了计算速度。

Patent Agency Ranking