-
公开(公告)号:CN115576970A
公开(公告)日:2023-01-06
申请号:CN202211054493.8
申请日:2022-08-31
Applicant: 浙江大学
IPC: G06F16/242 , G06F16/2453
Abstract: 本发明公开了一种基于决策树的数据库代价模型参数优化方法及其查询方法。针对特定软硬件设置下的数据库实例,本发明建立了一棵数据库代价模型参数树,使用数据库配置参数、查询语句特征作为分裂维度对参数空间进行分区,每个分区中通过对训练样本的线性拟合求解最优的代价模型参数。在运行过程中,参数树为不同参数配置及数据分布下的查询语句分配不同的代价模型参数,从而进行精准的代价预测。实验表明该方法提高了传统基于规则的估计模型的预测准确度,优化了数据库的查询性能。
-
公开(公告)号:CN113033603B
公开(公告)日:2022-11-15
申请号:CN202110162956.1
申请日:2021-02-05
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于元学习的弱监督图像多标签分类方法,属于图像处理技术领域。该方法为解决因标签缺失无法有效建模标签依赖关系问题,提出一个基于标签信息增强的图像多标签分类模型,采用编码‑解码架构的神经网络,以序列标注的形式,依次判断标签序列中的标签是否相关,获得图像的相关标签。应对弱监督环境存在的监督信息不足导致模型过拟合现象,本发明提出了基于元学习的教师‑学生网络架构训练方法,进一步提高了图像标注的准确率。
-
公开(公告)号:CN111475507B
公开(公告)日:2022-06-21
申请号:CN202010244527.4
申请日:2020-03-31
Applicant: 浙江大学
Abstract: 本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log‑Structured‑Merge Tree,LSMT)进行了优化,去除了多层设计和固定内存表容量设计,引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中,再修改内存表。当内存表的大小达到了容量限制,转换成一个只读内存表,并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上,本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大,提升系统吞吐和存储设备寿命。同时针对工作负载做出自适应的优化,进一步提升系统性能。
-
公开(公告)号:CN114579721A
公开(公告)日:2022-06-03
申请号:CN202210176603.1
申请日:2022-02-25
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/36 , G06N3/08
Abstract: 本发明公开了一种面向弱监督场景的复杂知识图谱问答方法,本发明在实体链接子任务中将多源词嵌入信息和知识图谱中的语义及拓扑信息融入到模型中;在关系预测子任务中引入知识图谱三元组表示信息,采用动态分析、逐跳推理的过程来搜寻答案;同时,在答案转移路径不完备的弱监督场景,本发明采用多路径联合推理的方式,筛选出合理的转移路径,以路径为基本单位,共同作用于模型的训练中。对比传统的知识图谱问答方法,本发明方法能够在弱监督场景中有效的训练,并有着显著的提升。
-
公开(公告)号:CN110597805B
公开(公告)日:2022-04-12
申请号:CN201910672625.5
申请日:2019-07-24
Applicant: 浙江大学
IPC: G06F16/22
Abstract: 本发明公开了一种内存索引结构处理方法。在跳表处理前,通过统计信息计算查询分布以及数据分布情况;选择插入跳表结构的哨兵节点;通过求解跳表在插入节点后的最小平均操作代价,得到最优的哨兵节点的配置结果;在底层跳表结构中插入这些哨兵节点,接着在底层跳表结构中的哨兵节点插入完毕后,通过Bulkload方法自底向上建立上层CSB+树结构,对哨兵节点的快速定位;对于每一条需要查询或者插入的数据,通过上层CSB+树结构,找到最近哨兵节点,从此开始对跳表进行操作。本发明方法在保留传统跳表结构实现简单、并发性好、适合范围查询等优势的基础上,提升了整个操作过程对缓存的利用率,从而明显提升了内存索引的性能。
-
公开(公告)号:CN113988079A
公开(公告)日:2022-01-28
申请号:CN202111144082.3
申请日:2021-09-28
Applicant: 浙江大学
Abstract: 本发明公开了一种面向低数据的动态增强多跳文本阅读识别处理方法。对文档的数据集进行修正预处理;构建动态增强的答案预测模型;使用训练集训练动态增强的答案预测模型作为教师模型;随机挑选一部分无标签的数据集输入到教师模型中预测获得标签结果建立伪标签,将带有伪标签的数据集加到训练集形成新训练集;用新训练集再训练教师模型获得学生模型;不断重复步骤迭代,直到验证集的模型精度结果满足预设阈值要求;用最终的学生模型对待测阅读文档进行预测,输出预测获得待测阅读文档的答案。本发明使用动态增强的方法来扩充数据,能够减少输入长度,解决标签数据少情况下的多跳阅读理解问题,增强模型的泛化能力。
-
公开(公告)号:CN109063034B
公开(公告)日:2022-01-04
申请号:CN201810779775.1
申请日:2018-07-16
Applicant: 浙江大学
Abstract: 本发明公开了一种基于空间和社交多媒体数据的室内空间语义价值计算方法。将室内独立子空间的语义价值划分为区位和社交贡献度,融合得室内独立子空间的语义价值;分析各室内独立子空间拓扑连接关系,构建室内空间模型,对各物体间距离进行计算,根据用户行走约束计算用户在室内空间中的各条行走路径的选择概率构建路径矩阵,计算区位贡献度;根据室内独立子空间的社交多媒体数据,分析句子结构并提取关键词,构建情感分类基分类器;将句子集合划分为关键句和非关键句,对社交评价文本进行分类;根据社交评价文本的分类计算社交贡献度。本发明的计算室内空间价值方法能用于解决新引进店铺的价值预测,多维度店铺评估等关键问题。
-
公开(公告)号:CN113032391A
公开(公告)日:2021-06-25
申请号:CN202110162264.7
申请日:2021-02-05
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明公开了一种分布式子轨迹连接查询处理方法。该方法首先将轨迹数据进行混合分区处理,即首先基于时间信息对轨迹数据进行时间分区,之后基于空间位置信息将同一时间分区内的轨迹数据进行空间分区;在每一个时间分区内建立索引;在之后的查询过程中,首先将查询轨迹按照相同的时间间隔进行分区,并在相应的时间分区内进行并行查询,得到一系列候选轨迹;之后将每个候选轨迹对应的空间分区数据加载到内存中,并一一进行验证;最后将各个时间分区得到的数据进行合并。本方法能够支持城市级别GPS点的查询,并能够有效降低I/O和CPU处理开销,加快查询处理,性能良好。
-
公开(公告)号:CN110658818B
公开(公告)日:2020-08-21
申请号:CN201910934799.4
申请日:2019-09-29
Applicant: 浙江大学
Abstract: 本发明公开了一种面向新型供电列车的多目标优化智能运行控制预测方法。由新型供电列车的静态动态大数据得到原始数据,参数化/正则化和归一化获得列车信息序列数据;利用列车信息序列数据中的局部数据得到理想条件下的列车运行状态数据;输入到长短期记忆网络中进行训练得到基础模型,将列车信息序列数据划分为多个部分,依次输入到基础模型中依次并再次进行训练得到了带有知识的基础模型;建立平方损失训练;真实采集的速度输入到带有知识的基础模型中进行预测输出获得下一时刻的牵引力。本发明不依赖大量数据,降低了训练数据量,得到符合现实列车运行数据分布的模型,提高了模型准确率并方便直接用于现实应用。
-
公开(公告)号:CN111475507A
公开(公告)日:2020-07-31
申请号:CN202010244527.4
申请日:2020-03-31
Applicant: 浙江大学
Abstract: 本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log-Structured-Merge Tree,LSMT)进行了优化,去除了多层设计和固定内存表容量设计,引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中,再修改内存表。当内存表的大小达到了容量限制,转换成一个只读内存表,并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上,本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大,提升系统吞吐和存储设备寿命。同时针对工作负载做出自适应的优化,进一步提升系统性能。
-
-
-
-
-
-
-
-
-