-
公开(公告)号:CN111475507B
公开(公告)日:2022-06-21
申请号:CN202010244527.4
申请日:2020-03-31
Applicant: 浙江大学
Abstract: 本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log‑Structured‑Merge Tree,LSMT)进行了优化,去除了多层设计和固定内存表容量设计,引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中,再修改内存表。当内存表的大小达到了容量限制,转换成一个只读内存表,并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上,本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大,提升系统吞吐和存储设备寿命。同时针对工作负载做出自适应的优化,进一步提升系统性能。
-
公开(公告)号:CN114579721A
公开(公告)日:2022-06-03
申请号:CN202210176603.1
申请日:2022-02-25
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/36 , G06N3/08
Abstract: 本发明公开了一种面向弱监督场景的复杂知识图谱问答方法,本发明在实体链接子任务中将多源词嵌入信息和知识图谱中的语义及拓扑信息融入到模型中;在关系预测子任务中引入知识图谱三元组表示信息,采用动态分析、逐跳推理的过程来搜寻答案;同时,在答案转移路径不完备的弱监督场景,本发明采用多路径联合推理的方式,筛选出合理的转移路径,以路径为基本单位,共同作用于模型的训练中。对比传统的知识图谱问答方法,本发明方法能够在弱监督场景中有效的训练,并有着显著的提升。
-
公开(公告)号:CN110597805B
公开(公告)日:2022-04-12
申请号:CN201910672625.5
申请日:2019-07-24
Applicant: 浙江大学
IPC: G06F16/22
Abstract: 本发明公开了一种内存索引结构处理方法。在跳表处理前,通过统计信息计算查询分布以及数据分布情况;选择插入跳表结构的哨兵节点;通过求解跳表在插入节点后的最小平均操作代价,得到最优的哨兵节点的配置结果;在底层跳表结构中插入这些哨兵节点,接着在底层跳表结构中的哨兵节点插入完毕后,通过Bulkload方法自底向上建立上层CSB+树结构,对哨兵节点的快速定位;对于每一条需要查询或者插入的数据,通过上层CSB+树结构,找到最近哨兵节点,从此开始对跳表进行操作。本发明方法在保留传统跳表结构实现简单、并发性好、适合范围查询等优势的基础上,提升了整个操作过程对缓存的利用率,从而明显提升了内存索引的性能。
-
公开(公告)号:CN113988079A
公开(公告)日:2022-01-28
申请号:CN202111144082.3
申请日:2021-09-28
Applicant: 浙江大学
Abstract: 本发明公开了一种面向低数据的动态增强多跳文本阅读识别处理方法。对文档的数据集进行修正预处理;构建动态增强的答案预测模型;使用训练集训练动态增强的答案预测模型作为教师模型;随机挑选一部分无标签的数据集输入到教师模型中预测获得标签结果建立伪标签,将带有伪标签的数据集加到训练集形成新训练集;用新训练集再训练教师模型获得学生模型;不断重复步骤迭代,直到验证集的模型精度结果满足预设阈值要求;用最终的学生模型对待测阅读文档进行预测,输出预测获得待测阅读文档的答案。本发明使用动态增强的方法来扩充数据,能够减少输入长度,解决标签数据少情况下的多跳阅读理解问题,增强模型的泛化能力。
-
公开(公告)号:CN109063034B
公开(公告)日:2022-01-04
申请号:CN201810779775.1
申请日:2018-07-16
Applicant: 浙江大学
Abstract: 本发明公开了一种基于空间和社交多媒体数据的室内空间语义价值计算方法。将室内独立子空间的语义价值划分为区位和社交贡献度,融合得室内独立子空间的语义价值;分析各室内独立子空间拓扑连接关系,构建室内空间模型,对各物体间距离进行计算,根据用户行走约束计算用户在室内空间中的各条行走路径的选择概率构建路径矩阵,计算区位贡献度;根据室内独立子空间的社交多媒体数据,分析句子结构并提取关键词,构建情感分类基分类器;将句子集合划分为关键句和非关键句,对社交评价文本进行分类;根据社交评价文本的分类计算社交贡献度。本发明的计算室内空间价值方法能用于解决新引进店铺的价值预测,多维度店铺评估等关键问题。
-
公开(公告)号:CN113032391A
公开(公告)日:2021-06-25
申请号:CN202110162264.7
申请日:2021-02-05
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/2455
Abstract: 本发明公开了一种分布式子轨迹连接查询处理方法。该方法首先将轨迹数据进行混合分区处理,即首先基于时间信息对轨迹数据进行时间分区,之后基于空间位置信息将同一时间分区内的轨迹数据进行空间分区;在每一个时间分区内建立索引;在之后的查询过程中,首先将查询轨迹按照相同的时间间隔进行分区,并在相应的时间分区内进行并行查询,得到一系列候选轨迹;之后将每个候选轨迹对应的空间分区数据加载到内存中,并一一进行验证;最后将各个时间分区得到的数据进行合并。本方法能够支持城市级别GPS点的查询,并能够有效降低I/O和CPU处理开销,加快查询处理,性能良好。
-
公开(公告)号:CN111475507A
公开(公告)日:2020-07-31
申请号:CN202010244527.4
申请日:2020-03-31
Applicant: 浙江大学
Abstract: 本发明公开了一种工作负载自适应单层LSMT的键值数据索引方法。该方法对传统的日志结构合并树(Log-Structured-Merge Tree,LSMT)进行了优化,去除了多层设计和固定内存表容量设计,引入了单层LSMT和动态容量内存表的设计。该方法将写入首先将写操作以顺序的方式写入存储设备上的日志文件中,再修改内存表。当内存表的大小达到了容量限制,转换成一个只读内存表,并在后台线程中将只读内存表表合入存储设备上的单层LSMT结构中。在此基础上,本方法能够根据工作负载中的键值读写分布自动优化存储结构。该索引方法能够同时降低对存储设备的读写放大,提升系统吞吐和存储设备寿命。同时针对工作负载做出自适应的优化,进一步提升系统性能。
-
公开(公告)号:CN109376339A
公开(公告)日:2019-02-22
申请号:CN201810873557.4
申请日:2018-08-02
Applicant: 浙江大学
IPC: G06F17/22
Abstract: 本发明公开了一种基于用户行为的文本转换候选规则信息提取方法。在待处理文本的若干行上进行选取用户选中文本对象;根据用户选中文本对象划分为三部分,将用户选中文本对象及其上下文前后部分按数字、单词和剩余内容的三个文本块类别进行切割,生成文本块;将文本块以用户选中文本对象对齐排列成文本块数据矩阵,对候选规则集的各个候选规则列集求笛卡尔积,获得候选规则组合集合;对候选规则信息进行判断筛选,将所有候选规则组合计算适用性并排序,提取具有最优适用性的候选规则组合推荐给用户。本发明能根据用户的交互自动推荐文本转换规则信息数据,提取出能需要的规则信息集合,快速且较为准确地实现对数据的处理。
-
公开(公告)号:CN109359172A
公开(公告)日:2019-02-19
申请号:CN201810871604.1
申请日:2018-08-02
Applicant: 浙江大学
Abstract: 本发明公开了一种基于图划分的实体对齐优化方法。利用组合索引从所有实体中挖掘候选实体对,通过实体的相似度度量方法判别候选实体对是否对齐获得等价实体对,再利用实体之间的相似度关系提出基于图划分的优化算法提升等价实体对对齐的准确性。本发明方法解决了大规模互联网数据的实体对齐问题,能准确完备挖掘出原始数据中相互等价的实体集合。
-
公开(公告)号:CN109145121A
公开(公告)日:2019-01-04
申请号:CN201810778978.9
申请日:2018-07-16
Applicant: 浙江大学
Abstract: 本发明公开了一种时变图的快速存储查询方法。将时变图数据分为结构和属性数据,将结构数据变成带关系节点的网络图模型;使用日志结构存储时变图的属性数据,建立日志属性模型;根据时变图的结构数据存储模型和属性数据存储模型建立时变图查询模型,对输入数据分类执行到网络图模型和日志属性模型对应的不同物理存储中并执行查询并行化,并且构建图数据库和文档数据库的底层数据存储和特殊的上层查询封装进行查询。本发明建立了通用的上层存储模型,并设计了时变图数据的查询,发明相比传统方法在实体状态和历史属性值查询上有显著的查询效率,在历史属性值的存储空间上也有显著的节省。
-
-
-
-
-
-
-
-
-