-
公开(公告)号:CN101178720B
公开(公告)日:2010-12-15
申请号:CN200710156189.3
申请日:2007-10-23
Applicant: 浙江大学
Abstract: 本发明公开了一种面向互联网微内容的分布式聚类方法。本发明采用多机分布式聚类的方法,主控机器把要处理的微内容切分成多个小文件,并把这些小文件分配给多台聚类机器进行聚类操作。单台聚类机器对分配到的各个小文件循环进行元聚类,接着合并这些元聚类结果文件,得到相应的单机聚类合并文件,然后把它发送给主控机器。主控机器在接收到各个聚类机器发送过来的单机聚类合并文件后,从各个单机聚类合并文件中抽取微内容代表点,对这些微内容代表点进行再次元聚类,生成新的聚类项,并将对应的类别合并,得到最后的聚类结果。本发明能够准确、快速地对海量级的互联网微内容进行聚类,是一种既高效又实用的分布式聚类方法。
-
公开(公告)号:CN101697232A
公开(公告)日:2010-04-21
申请号:CN200910152880.3
申请日:2009-09-18
Applicant: 浙江大学
Abstract: 本发明公开了一种面向近重复图像匹配的SIFT特征裁减方法。对图像库中每一幅图像进行高斯核卷积处理,得到图像关键点;对关键点对比度和关键点主曲率比分别进行高斯归一化,并进行线性加权得到显著度;按照关键点的显著度从小到大排序,选取用户指定数目的关键点,实现裁减;对裁减后的关键点,根据其位置、尺度和方向信息生成描述子,得到SIFT特征;对所有SIFT特征集合使用局部敏感哈希技术建立图像库索引,提供近重复图像匹配查询功能。利用了图像局部特征技术和局部敏感哈希技术的研究和实现成果,可以方便快捷的提供近重复图像查询能力,使用者根据应用需求调整裁减算法的加权系数和SIFT特征数目上限阈值,以提供最好的性能。
-
公开(公告)号:CN101667200A
公开(公告)日:2010-03-10
申请号:CN200910152881.8
申请日:2009-09-18
Applicant: 浙江大学
CPC classification number: Y02A10/46
Abstract: 本发明公开了一种的P2P环境中的窗口查询方法。利用超级节点P2P网络同时具备集中式网络和完全无结构化网络的优点,将窗口查询方法建立在此网络结构上。针对数据的高维特性,在每个单独的网络节点上,数据通过一种降维算法iMinMax映射到一维空间,映射后的值可以通过B+树等传统的DBMS索引结构来存储和查询。然后在每个超级节点上构建数据的统计信息表以及构造网络查询树。节点P发送查询请求时,首先发送到P所属的超级节点上,然后超级节点根据数据的统计信息表在内部完成查询,同时根据网络查询树将查询发送到其他的超级节点,最终完成整个网络的查询,最后返回查询结果到P。该方法能够有效的避免网络泛洪,高效的查询返回数据。
-
公开(公告)号:CN101667197A
公开(公告)日:2010-03-10
申请号:CN200910152876.7
申请日:2009-09-18
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于滑动窗口的数据流关联规则挖掘方法。利用流数据库管理系统的输入输出机制,将应用产生的原始数据流接入流数据库管理系统。在流数据库管理系统中建立数据流预处理应用环境,并将处理后的输出数据流传递给关联规则挖掘系统。使用关联规则挖掘系统时,用户通过设置滑动窗口大小、步长,关联规则的最小支持度、置信度及其相应的误差值确定关联规则查询条件。关联规则挖掘系统将产生的关联规则实时输出给外部设备。利用数据流上关联规则挖掘的现有研究及实现成果,提出基于滑动窗口的数据流关联规则方法,在已有的流数据库管理系统上,使用者可以根据应用需求选择合适的查询参数,获得最好的性能。
-
公开(公告)号:CN101276436A
公开(公告)日:2008-10-01
申请号:CN200810061396.5
申请日:2008-04-25
Applicant: 浙江大学
IPC: G06N3/12
Abstract: 本发明公开了一种利用基于关联规则的遗传算法进行仪表设计的方法。本发明是通过挖掘已有知识库中的元器件关联属性,并在遗传算法中的变异繁殖步骤中利用这些关联采取有针对性的遗传变异,从而提高遗传算法的收敛速度。本发明利用已有的专家知识以及将运算结果加入知识库,不断的扩大知识库的容量,使得在知识库中的仪表设计可行解进行关联规则挖掘的结果更加的可靠。本发明同时在对遗传算法最优解的求取过程中,按照关联规则的置信度进行有选择的变异,能够加快算法的收敛速度,从提高在实际运用中仪表设计系统计算最优仪表方案的速度,解决批量设计仪表方案时的用户长时间等待的问题。
-
公开(公告)号:CN101272399A
公开(公告)日:2008-09-24
申请号:CN200810061395.0
申请日:2008-04-25
Applicant: 浙江大学
Abstract: 本发明公开了一种基于P2P网络实现全文检索系统的方法。本方法首先将所有普通节点根据各自包含的文档集的内容相似度进行分组,使得内容上相近或相似的普通节点连接同一个超级节点。其次,所有的超级节点组成结构化网络,用于维护“词→相关超级节点列表”的全局查询目录,并且每个超级节点独立维护“词→组内相关普通节点列表”的组内查询目录。本方法利用分层的网络模型和粗粒度的全局查询目录,使得这个P2P全文检索系统能够适应大量节点频繁加入或退出的情况,并且保证查询的性能和减少查询目录的维护代价。
-
公开(公告)号:CN101158958A
公开(公告)日:2008-04-09
申请号:CN200710156183.6
申请日:2007-10-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于MySQL存储引擎的融合查询方法。利用MySQL数据库的存储引擎插件机制,开发全文检索存储引擎,将现有全文检索系统链接到MySQL数据库中。在MySQL数据库中使用“全文检索链接表”来表示全文检索系统,用户通过标准的SQL访问“全文检索链接表”时,全文检索存储引擎自动将全文检索请求转发至全文检索系统处理。通过“全文检索链接表”与其它表示结构化信息的数据库之间的联接等SQL操作实现融合查询。利用了数据库和全文检索和现有研究和实现成果,基于已有系统可以方便快捷的提供融合查询能力,并且不依赖于一种特有的全文检索系统实现,使用者根据应用需求选择最合适的全文检索系统,提供最好的性能。
-
公开(公告)号:CN119474262A
公开(公告)日:2025-02-18
申请号:CN202411333724.8
申请日:2024-09-24
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/31 , G06F16/334 , G06F16/36 , G06F16/38 , G06N3/045 , G06F40/16
Abstract: 本发明公开了一种结合外部知识检索增强大语言模型的数据匹配方法、设备、介质,包括:将数据匹配任务拆解为自然语言形式的规则集合;遍历数据匹配数据集中的每一样本;对于第i个样本,获取该样本中与源数据库相关的数据库角色实体及其元数据;将数据库角色实体作为索引,其对应的元数据作为值构建第一知识集;将该样本输入大语言模型以提取关键词,检索得到关键词在外部领域知识库中对应的实体,并获取该实体的one‑hop关系;将关键词作为索引,其对应的one‑hop关系作为值构建第二知识集;获取压缩后的in‑context示例数据;基于规则集合、第一知识集、第二知识集、压缩的in‑context示例数据构建提示词并输入至大语言模型,得到数据匹配结果。
-
公开(公告)号:CN117420955A
公开(公告)日:2024-01-19
申请号:CN202311322657.5
申请日:2023-10-13
Applicant: 浙江大学
IPC: G06F3/06
Abstract: 本发明公开了一种利用B+Tree优化混合存储下LSM‑Tree性能的方法,包括:配置LSM‑Tree,包括:将LSM‑Tree的第0层和第1层放在非易失性内存中,将LSM‑Tree的第2层放在固态硬盘中;所述LSM‑Tree的第0层和第1层采用B+Tree,所述LSM‑Tree的第2层采用SSTable;其中,所述B+Tree用于存储键和值的指针,包括非叶子结点,还包括索引页和数据页;配置布谷鸟过滤器,包括:所述布谷鸟过滤器中将键的哈希值作为布谷鸟过滤器的键,将LSM‑Tree第0层中的树ID作为值,并且只对LSM‑Tree中第0层的数据进行过滤;配置非易失性内存分配器,包括:当进行恢复时,恢复B+Tree的非叶子结点,遍历B+Tree的叶子结点,将遍历得到的键值对的地址发送至非易失性内存分配器,所述非易失性内存分配器根据当前的键值对的值恢复元数据。
-
公开(公告)号:CN113032418B
公开(公告)日:2022-11-11
申请号:CN202110183393.4
申请日:2021-02-08
Applicant: 浙江大学
IPC: G06F16/242 , G06F16/245
Abstract: 本发明公开了一种基于树状模型的复杂自然语言查询转SQL方法,该方法首先针对于输入的数据库进行预筛选,获取与自然语言查询相关的TOP K个表格,将多表查询转化为单表查询,并适配于数据库规模较大从而无法将信息输入到自然语言查询转SQL模型的情况;然后针对于复杂的SQL语句自顶向下地拆解为多叉树形式,每个结点代表一个模块,由此构建了一个树状模型来预测复杂SQL语句各模块的输出;最后针对于SQL语句值抽取的任务,将值抽取从树状模型中分离出来,共享权重来同时抽取SQL中不同子句的值。本发明的基于树状模型的复杂自然语言查询转SQL方法框架可以解决自然语言查询转SQL任务中的多表复杂查询问题。
-
-
-
-
-
-
-
-
-